<<

MÉTODOS COMPUTACIONAIS PARA A CONSTRUÇÃO DA ONTOLOGIA DE DOMÍNIO

Ivo Wolff Gersberg

Dissertação de Mestrado apresentada ao Programa de Pósgraduação em Engenharia Civil, COPPE, da Universidade Federal do Rio de Janeiro, como parte dos requisitos necessários à obtenção do título de Mestre em Engenharia Civil.

Orientadores: Nelson Francisco Favilla Ebecken Luiz Bevilacqua

Rio de Janeiro Agosto de 2011

MÉTODOS COMPUTACIONAIS PARA CONSTRUÇÃO DA ONTOLOGIA DE DOMÍNIO FRACTAL

Ivo Wolff Gersberg

DISSERTAÇÃO SUBMETIDA AO CORPO DOCENTE DO INSTITUTO ALBERTO LUIZ COIMBRA DE PÓSGRADUAÇÃO E PESQUISA DE ENGENHARIA (COPPE) DA UNIVERSIDADE FEDERAL DO RIO DE JANEIRO COMO PARTE DOS REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE MESTRE EM CIÊNCIAS EM ENGENHARIA CIVIL.

Examinada por:

______

Prof. Nelson Francisco Favilla Ebecken, D.Sc.

______

Prof. Luiz Bevilacqua, Ph.D.

______

Prof. Marta Lima de Queirós Mattoso, D.Sc.

______

Prof. Fernanda Araújo Baião, D.Sc.

RIO DE JANEIRO, RJ BRASIL AGOSTO DE 2011

Gersberg, Ivo Wolff Métodos computacionais para a construção da Ontologia de Domínio Fractal/ Ivo Wolff Gersberg. – Rio de Janeiro: UFRJ/COPPE, 2011. XIII, 144 p.: il.; 29,7 cm. Orientador: Nelson Francisco Favilla Ebecken Luiz Bevilacqua Dissertação (mestrado) – UFRJ/ COPPE/ Programa de Engenharia Civil, 2011. Referências Bibliográficas: p. 130133. 1. Ontologias. 2. Mineração de Textos. 3. Fractal. 4. Metodologia para Construção de Ontologias de Domínio. I. Ebecken, Nelson Francisco Favilla et al . II. Universidade Federal do Rio de Janeiro, COPPE, Programa de Engenharia Civil. III. Titulo.

iii

À minha mãe e meu pai, Basia e Jayme Gersberg.

iv

AGRADECIMENTOS

Agradeço aos meus orientadores, professores Nelson Ebecken e Luiz Bevilacqua, pelo incentivo e paciência.

Ao professor Luiz Bevilacqua por ter me ensinado ser possível retirar um colete de uma pessoa sem retirar o paletó.

Aos professores Luiz Landau e Fernando Pellon pelo livre pensar em minhas atividades.

Ao professor Jorge de Albuquerque Vieira por semear as primeiras noções sobre a Complexidade, germinantes desta dissertação.

Aos companheiros de laboratório, LABSARCOPPE/UFRJ.

Ao Orlando e Célio, do laboratório de informática do Programa de Engenharia Civil, por disponibilizar espaço, equipamento e café.

v

Resumo da Dissertação apresentada à COPPE/UFRJ como parte dos requisitos necessários para a obtenção do grau de Mestre em Ciências (M.Sc.)

MÉTODOS COMPUTACIONAIS PARA A CONSTRUÇÃO DA ONTOLOGIA DE DOMÍNIO FRACTAL

Ivo Wolff Gersberg

Agosto/2011

Orientadores: Nelson Francisco Favilla Ebecken Luiz Bevilacqua

Programa: Engenharia Civil

Este trabalho propõe uma metodologia para construção de uma ontologia de domínio baseada em Mineração de Textos, tendo o saber matemático fractal como domínio específico. A metodologia proposta leva em consideração uma textual composta de livros essenciais do saber fractal, comparando os resultados obtidos oriundos dos conteúdos dos livros com os resultados identificados por um especialista e também apenas considerando os índices remissivos dos livros em questão (especialista virtual). Um protótipo de uma aplicação Web foi implantado, permitindo buscas contextuais por aproximação ontológica na Ontologia de Domínio Fractal criada.

vi

Abstract of Dissertation presented to COPPE/UFRJ as a partial fulfillment of the requirements for the degree of Master of Science (M.Sc.)

COMPUTATIONAL METHODS TO BUILD THE FRACTAL DOMAIN ONTOLOGY

Ivo Wolff Gersberg

August/2011

Advisors: Nelson Francisco Favilla Ebecken Luiz Bevilacqua

Department: Civil Engineering

This work proposes a methodology for building a domain ontology based on Text Mining and the fractal mathematical knowledge as domain specific. The proposed methodology takes into account a textual knowledge base composed of fractal essential books, comparing the results obtained from the contents of books with the results identified by an expert and, also, just considering the indexes of the books in question (virtual expert). A prototype of a web application was deployed, allowing contextual search by ontological approach in the Fractal Domain Ontology created.

vii

Sumário

CAPÍTULO 1. DA INTRODUÇÃO ...... 1

1.1 dos Objetivos ...... 4

1.2 do Recorte do Domínio Matemático, Fractal ...... 6

1.3 da Organização da Dissertação ...... 7

CAPÍTULO 2. DAS MOTIVAÇÕES ...... 8

CAPÍTULO 3. DA CONCEPÇÃO DE ONTOLOGIAS E AFINS ...... 14

3.1 de Ontologias e suas Definições ...... 14

3.1.1 da pergunta, O que é Ontologia ? ...... 14

3.1.2 dos Tipos de Ontologias ...... 18

3.1.3 das Linguagens Formais de Ontologias ...... 23

3.2 das Considerações sobre Mineração de Textos ( Text Mining ) ...... 24

3.3 de Técnicas de Mineração de Textos Úteis à Construção de Ontologias ...... 26

3.3.1 da Importância de Substantivos e a Extração de Termos ...... 26

3.3.2 da Distribuição de Termos ...... 30

3.4 das Metodologias para Construção de Ontologias Relatadas na Literatura...... 31

3.4.1 de uma Ontologia Aplicada à Química, Methontology ...... 37

3.4.2 de uma Abordagem Colaborativa para ecommerce e Ensino à Distância ...... 40

3.4.3 de uma Ontologia Aplicada à Engenharia ...... 41

CAPÍTULO 4. DA CONSTRUÇÃO DA ONTOLOGIA ...... 52

4.1 da Metodologia Empregada nesta Dissertação ...... 54

4.1.1 da Metodologia Proposta: Fase 1, Especificação ...... 55

4.1.2 da Metodologia Proposta: Fase 2, PréProcessamento ...... 57

4.1.3 da Metodologia Proposta: Fase 3, Aquisição ...... 59

4.1.4 da Metodologia Proposta: Fase 4, Escolha de Termos e Relações ...... 60

4.1.5 da Metodologia Proposta: Fase 5, Formalização ...... 61

4.1.6 da Metodologia Proposta: Fase 6, Validação ...... 61

4.2 dos Resultados do Processamento...... 61

4.2.1 da Extração e Escolha de Termos ...... 61

viii

4.2.2 da Extração de Possíveis Relações ...... 77

4.3 da Construção da Ontologia de Domínio Fractal ...... 81

4.3.1 da Escolha do Primeiro Nível da Ontologia ...... 82

4.3.2 da Construção Manual no ProtégéOWL ...... 87

4.4 da AutoSimilaridade do Corpus ...... 91

CAPÍTULO 5. DA VALIDAÇÃO ...... 95

5.1 da Validação pelo Corpus Fractal ...... 96

5.2 da Validação pelo Corpus ScienceDirect ...... 104

CAPÍTULO 6. DA VISUALIZAÇÃO ...... 115

CAPÍTULO 7. DAS CONCLUSÕES ...... 121

CAPÍTULO 8. DOS TRABALHOS FUTUROS ...... 126

REFERÊNCIAS BIBLIOGRÁFICAS ...... 130

APÊNDICE I ...... 134

APÊNDICE II ...... 138

APÊNDICE III ...... 144

ix

Lista de Figuras

Figura 1 – Ontologia e sua Diversidade de Aplicações ...... 3 Figura 2 – Livros Adotados para Extração do Paradigma Fractal ...... 6 Figura 3 Visão de Polanyi acerca do Conhecimento adaptado de (Grant, 2007) ...... 13 Figura 4 – Primeira Ontologia da História: Porfírio sobre as Categorias de Aristóteles (séc.III) extraído de (Smith, 2008) ...... 19 Figura 5 – Ontologia SNAP ...... 22 Figura 6 – Relações Primitivas de um Recorte de BFO ...... 22 Figura 7 – Espectro Ontológico de Leo Obrst ...... 24 Figura 8 – Distribuição de termos segundo a Lei de Zipf. Exemplo de 3 livros: A Bíblia, Alice no País das Maravilhas e Tale of Two Cities . (extraído de (Konchady, 2006) ) . 31 Figura 10 – Ciclo de Vida proposto pela Metodologia Methontology extraído de (Lopez et al ., 1999) ...... 38 Figura 11 – Fase de Conceituação da Methontology ...... 39 Figura 12 – Estágios da Metodologia eCognos para Construção de Ontologias de Domínio extraído de (Rezgui, 2007) ...... 44 Figura 13 – Esquema Básico de EO extraído de (Li et al ., 2009) ...... 47 Figura 14 – Passos da Metodologia EO, extraído de (Li et al ., 2009) ...... 48 Figura 16 – Visão Geral das Etapas Implantadas ...... 52 Figura 17 – Metodologia Proposta e Implantada ...... 54 Figura 18 – Exemplos de uma Página dos Livros Adotados (esquerda) e de uma Página dos Índices dos Livros Adotados (direita) ...... 58 Figura 19 – Distribuição de Unigramas Extraídos pelo Critério (rank>0,95) (cenário TM) ...... 62 Figura 20 – Distribuição de Termos Unigramas, Agrupados pelas Ferramentas ...... 62 Figura 21 Distribuição de Bigramas Extraídos por cada Ferramenta (cenário TM) ... 63 Figura 22 – Distribuição de Termos Bigramas, Agrupados pelas Ferramentas (cenário TM) ...... 63 Figura 25 – Distribuição de Bigramas Extraídos por cada Ferramenta (cenário EspVirt) ...... 65 Figura 26 – Distribuição de Termos Bigramas, Agrupados pelas Ferramentas (cenário EspVirt) ...... 65 Figura 27 – Análise Quantitativa da Extração de Unigramas e Bigramas pelas ferramentas adotadas ...... 66 Figura 28 Conjunto Interseção de Unigramas e Bigramas, Agrupado por Medidas em Comum (cenário TM) ...... 68

x

Figura 29 Conjunto Interseção de Unigramas e Bigramas, Agrupado por Medidas em Comum (cenário EspVirt) ...... 68 Figura 30 – Termos em Comum com Cenário ESP ...... 76 Figura 31 Relações Escolhidas pelo Especialista: T2 (esquerda) e PA (direita) ...... 79 Figura 32 – Relações Escolhidas pelo Especialista: PA modificado ...... 80 Figura 33 – Relações Mais Frequentes...... 81 Figura 34 – Link Analysis Especialista para Geração do Nível 1 da Ontologia ...... 84 Figura 35 – Link Analysis TMEspVirtual para Geração do Nível 1 da Ontologia ...... 84 Figura 36 Link Analysis ESP_TMEspVirtual para Geração do Nível 1 da Ontologia . 85 Figura 37 Link Analysis EspVirt (exclusivamente Especial.Virtual) para Geração do Nível 1 da Ontologia ...... 85 Figura 38 – Nível 1 da Ontologia de Domínio Fractal ...... 87 Figura 39 – Exemplo de Axiomas Criados ...... 88 Figura 43 – Validação Mandelbrot, conjunto Especialista sobre Corpus FRACTAL .... 98 Figura 44 Validação Mandelbrot, conjunto TMEspVirtual sobre Corpus FRACTAL .. 99 Figura 45 Validação Mandelbrot, conjunto ESP_TMEspVirtual sobre Corpus FRACTAL ...... 100 Figura 46 Validação Mandelbrot, conjunto EspVirt sobre Corpus FRACTAL ...... 101 Figura 47 – Região de Mais Alta Concentração do Conjunto TMEsp_Virtual sobre o Corpus FRACTAL ...... 102 Figura 48 – Correlações Mais Fortes, Base ScienceDirect (Taxonomia Própria) ...... 105 Figura 49 Grafo dos Nós Mais Relevantes de Cada Conjunto Selecionado aplicado sobre o Corpus ScienceDirect (medida suporte >52) ...... 107 Figura 50 – Conjunto Especialista aplicada à base ScienceDirect ...... 108 Figura 51 Conjunto TMEspVirtual aplicada à base ScienceDirect ...... 109 Figura 52 Conjunto EspVirt aplicada à base ScienceDirect ...... 109 Figura 53 – Validação Mandelbrot, TMEsp_Virtual sobre Corpus ScienceDirect ...... 110 Figura 54 Taxonomia dos Conceitos da Ontologia de Domínio Fractal aplicada à Bíblia Sagrada ...... 111 Figura 55 – Medida Suporte sobre Caos de James Gleick...... 112 Figura 56 – Medida Tensão para Nível 1 sobre Caos de James Gleick ...... 112 Figura 57 – Grafo Completo de Conjunto ESP_TMEspVirtual sobre Caos de James Gleick ...... 113 Figura 58 – Protótipo Web de Buscas Orientadas por Ontologias...... 115 Figura 60 Consulta por Aproximação Ontológica ...... 118 Figura 61 – Visão Quantitativa, em Nuvem, das Relações Taxonômicas...... 120

xi

Figura 62 – Visão Gráfica do Desempenho das Ferramentas em Relação ao conjunto Especialista ...... 125 Figura 63 Conceitos de Outros Domínios ...... 127

xii

Lista de Tabelas

Tabela 1 – Relação TfIDF e Ocorrência de um Termo em um Corpus...... 30 Tabela 2 – Métodos Associados à Aprendizado de Ontologias baseado em (Gomez Perez et al ., 2005) ...... 34 Tabela 3 – métodos da tabela anterior e suas respectivas técnica de aprendizado de ontologias baseado em (GomezPerez et al., 2005) ...... 35 Tabela 4 – Representações Externas Independentes de Formalismo, metodologia Methontology extraído de (Lopez et al ., 1999) ...... 40 Tabela 5 – Abordagem Colaborativa para Construção de Uma Ontologia baseado em (Holsapple et al ., 2002) ...... 41 Tabela 6 – Cenários para Aquisição de Conceitos ...... 56 Tabela 7 – Comparação dos Termos Extraídos dos Conteúdos dos Livros x EspVirt . 71 Tabela 8 – Número de Termos para Escolhas (cenário ESP) ...... 74 Tabela 9 – Recorte dos Resultados da Ferramenta T2 para Extração de Relações ... 79 Tabela 10 – Algumas Relações NãoTaxonômicas da Ontologia de Domínio Fractal . 89 Tabela 12 – Dimensão dos Livros Adotados e do Corpus ...... 92 Tabela 13 – Relevância de Algumas Buscas na Ontologia ...... 118 Tabela 14 – Considerações Finais sobre o Uso de Índices dos Livros ...... 122 Tabela 15 – Desempenho das Ferramentas em Relação ao conjunto Especialista .. 124

xiii

CAPÍTULO 1. da Introdução Como alargar o conhecimento? Alargar o conhecimento implica sistematizálo de modo a juntar peças de um quebracabeça cognitivo já existente e revelar pontos de contatos inspiradores ao novo. Somente juntando o que existe, de maneira coerente, é possível diminuir a distância entre saberes díspares e proporcionar uma verdadeira abordagem interdisciplinar e, ainda, mesmo dentro de um mesmo saber, alcançar um enriquecimento disciplinar sob diferentes visões e perspectivas.

A nossa questão inicial e atemporal de investigação, sucede a questão de Kant, Como é possível o conhecimento? Na Analítica dos Conceitos , da Crítica da Razão Pura, Kant coloca que “o conhecimento de todo entendimento, pelo menos do entendimento humano, é um conhecimento por conceitos , que não é intuitivo, mas discursivo. Todas as intuições, enquanto sensíveis, assentam em afecções e os conceitos, por sua vez, em funções. Entendendo por função a unidade de ação que consiste em ordenar diversas representações sob uma representação comum...” (Kant, 1781). Deslocando do imenso contexto filosófico que trata de questões acerca da representação comum kantiana, esbarramos no sentido computacional atual que pretende representar o conhecimento em uma representação comum, as ontologias.

Para os sistemas de Inteligência Artificial, o que existe é o que pode ser representado. A ontologia computacional é um modo de modelar formalmente a estrutura de um sistema, ou seja, entidades relevantes e relações emergem da observação, se tornando úteis aos nossos propósitos. O engenheiro de ontologias analisa as entidades mais relevantes (entes mais gerais e abstratos que podem ser subdivididos em objetos, processos, ideias, etc.) e os organiza em conceitos 1 e relações . O esqueleto de uma ontologia consiste em uma hierarquia de conceitos generalizados e especializados (Guarino et al ., 2009) de maneira similar a uma taxonomia.

A semelhança com o passado filosófico persiste, temos ainda em Kant: “se abstrairmos de todo conteúdo de um juízo em geral e atendermos à simples forma do entendimento, encontramos que nele a função do pensamento pode reduzirse a

1 Como bem alerta Guarino, o uso do termo “conceito” é bastante problemático, pois por vezes em ciência da computação é tratado como “ propriedade s”. Conceitos correspondem melhor a “universais” , ou seja, um universal que possa ter instâncias.

1 quatro rubricas”, acomodadas em uma tábua 2. Continua Kant, “diversas representações são reduzidas, analiticamente, a um conceito. (...) por este motivo se dá a estas representações 3 o nome de conceitos puros do entendimento, que se referem a priori aos objetos (...) Deste modo, originamse tantos conceitos puros do entendimento, referidos a priori a objetos da intuição em geral, quanto as funções lógicas em todos os juízos possíveis que há na tábua anterior... Chamaremos a estes conceitos categorias 4, como Aristóteles, já que o nosso propósito é de início, idêntico ao seu, embora na execução dele se afaste consideravelmente. (...) que esta tábua (das categorias) é de extraordinário préstimo e até indispensável na parte teórica da filosofia, para elaborar integralmente o plano do todo que forma uma ciência , na medida em que assenta sobre conceitos a priori, e para a dividir sistematicamente, segundo princípios determinados , é o que obviamente se depreende do fato dessa tábua conter a lista completa dos conceitos elementares do entendimento e até mesmo a forma de um sistema desses conceitos no entendimento humano, indicando, por conseguinte, todos os momentos de uma projetada ciência especulativa e, inclusivamente, a sua ordenação ...” (Kant, 1781).

Embora, neste último parágrafo Kant esteja investigando os conceitos puros (onde puro é um termo técnico em Kant), independentes da experiência e condições de possibilidade desta, vemos sua intenção em criar uma hierarquia de conceitos que permitissem a sistematização do conhecimento. Das categorias mais abstratas e necessárias, propiciando todos os momentos de ciências conseqüentes, ou seja, a construção de uma conceituação que permita estruturar outros domínios específicos. Ora, esta é exatamente a proposta atual sobre ontologias.

Diversos são os usos de ontologias, no sentido atual 5. Uns, ao invés de capturar plenamente o conhecimento de um determinado domínio, as utilizam para criar um vocabulário controlado e consensual. Tal vocabulário seria usado como conhecimento

2 A tábua consiste de: Quantidade (universais, particulares, singulares), Qualidade (afirmativos, negativos, infinitos), Relação (categóricos, hipotéticos, disjuntivos) e Modalidade (problemáticos, assertóricos, apodíticos). 3 Por não ser o objetivo desta dissertação, pulouse toda uma imensa questão acerca do conteúdo transcendental e suas sínteses na formação dos conceitos puros do entendimento. 4 Uma extensão da tábua anterior, Quantidade (unidade, pluralidade, totalidade), Qualidade (realidade, negação, limitação), Relação (inerência e subsistência, causalidade e dependência, ação recíproca) e Modalidade (possibilidade e impossibilidade, existência e nãoexistência, necessidade e contingência). 5 Alguns consideram a ontologia de cunho filosófico como Ontologia, palavra iniciada com letra maiúscula, enquanto a ontologia no sentido atual seria iniciada com minúscula (Guarino, et al., 2009).

2 compartilhado de modo formal, através de tecnologias voltadas para inferências, e informal, explicitando alguns sentidos em textos (Staab et al ., 2009).

Ainda considerando este vocabulário, sofisticados sistemas semânticos de indexação de banco de dados são criados, estruturando repositórios de informação que incluem documentos textuais não estruturados, culminando no aperfeiçoamento de sistemas de recuperação da informação (Uschold et al ., 2004). Outros a utilizam para integração de base de dados, apoiados em uma abordagem semântica. Outros em portais semânticos, como um sistema de recomendações baseado em ontologias (Staab et al ., 2009). Ainda outros, apenas como um modelo de informação, provendo uma estrutura organizada de um determinado interesse, como uma teia de dados, descrevendo como diferentes partes da informação se relacionam umas com as outras (ex.: experiências biológicas laboratoriais e descrições de amostras).

Em um sentido mais clássico, como Representação do Conhecimento, onde a ontologia é a especificação de conceitos e relacionamentos em um domínio de discurso, acrescido de declarações das propriedades dos relacionamentos e, em alguns casos, acrescidos de um conjunto de axiomas inferindo conceitos e relações. Assim, o conhecimento é tratado como um modelo formalizado, de maneira que possa ser entendido por humanos e por sistemas baseados em máquinas (Shah et al ., 2009).

O universo de aplicação de uma ontologia cresce em diversidade, como pode ser visto na Figura 1.

Figura 1 – Ontologia e sua Diversidade de Aplicações baseado em (Stevens et al ., 2009)

3

Contudo, nosso interesse maior, pormenorizado na seção de motivações, é encontrar uma via de convergência entre Filosofia e Ciências da Computação, de modo a investigar congruências de saberes, ou seja, o quanto imbricado os saberes podem ser, através de Ontologias como Representação do Conhecimento. Uma vez que este espectro é bastante amplo e ambicioso, nos restringiremos a um passo inicial desta ampla investigação. Constatamos que sem uma representação formal do conhecimento, tal investigação não seria possível, logo fazse necessário a existência de ontologias com este viés 6. Uma vez que não as temos, o passo inicial e meta desta dissertação será a investigação de metodologias de construção de uma ontologia acerca de um domínio específico do saber e, por conseguinte, construção desta.

1.1 dos Objetivos Nossa preocupação se resume em uma vontade de tratar o conhecimento, e de alguma maneira alargálo. A representação do conhecimento se estende além da produção do próprio conhecimento e alargálo significa identificar o comportamento de ontologias em uma abordagem epistemológica. Como dito anteriormente, não as temos (as ontologias) dentro deste prisma, portanto, o objetivo desta dissertação é construir uma ontologia de domínio, de maneira genérica, e que reflita um conhecimento de um especialista no recorte de saber adotado, com o auxílio de técnicas de Mineração de Textos. Assim sendo, além de preparar o terreno epistemológico, neófitos poderão ter um primeiro contato de fácil compreensão sobre o saber fractal. Neste sentido, serão investigadas algumas metodologias existentes na literatura técnica e, por conseguinte, proporemos uma metodologia de construção de uma ontologia. Ao final apresentaremos um protótipo formalizado da ontologia de domínio criada.

A presença de um especialista, amplamente ressaltada na literatura, é considerada de importância vital, uma vez que o engenheiro de ontologias na imensa maioria das ocasiões não detém o conhecimento do domínio específico adotado. Por variados motivos, o tempo disponível pelos especialistas pode ser escasso, portanto a proposta nesta dissertação é criar um arcabouço ontológico preliminar, durante a metodologia, que minimize o número de entrevistas conseqüentes. A figura do “especialista virtual”, como veremos mais adiante, foi criada para conduzir este arcabouço preliminar.

6 Propósito epistemológico.

4

O viés adotado para a construção de uma ontologia, com o nosso propósito, é bastante controverso. Ao dizer que a ontologia a ser construída refletirá a visão de um especialista, imputamos uma tendência, uma não neutralidade.

Todo conhecimento deve necessariamente ser universal, porém uma ontologia que representa um conhecimento é o resultado de um processo de entendimento acerca de algo (o modelo conceitual), representando um ponto de vista (a representação do conhecimento) de quem toma parte do processo, podendo variar dependendo dos contextos. Os conceitos da ontologia são oriundos de conhecimento e ideias teóricas, de experiências de determinados cientistas ou da prática de empregados, no caso de conhecimento corporativo (Cristani et al ., 2004), logo carregando uma alta dose de subjetividade.

Muitos defendem que esta carga subjetiva é danosa, impondo que toda ontologia deveria ser afastada de qualquer epistemologia. Uma ontologia de um saber específico deveria ser uma estrutura linguística simplesmente canônica, ou seja, uma empreitada estritamente pragmática, refletindo apenas os resultados constatados em laboratório, logo afastando as representações cognitivas exclusivas das cabeças dos cientistas (Smith, 2008). Estes, ainda, vão de encontro a um realismo representacional, defendendo que ao modelo conceitual devese tomar cuidado quanto ao seu teor abstrato, rejeitando as representações dadas sobre as coisas. Assim sendo, modelo deve ser considerado como uma representação que permita um “certo” grau de simulação e aproximação, julgada adequada para o propósito de uma ontologia específica (Grenon et al ., 2003).

Ora, desejamos criar uma ontologia que de fato seja objetiva, porém uma objetividade de uma subjetividade na composição de uma representação do conhecimento, ou seja, reflita a cabeça cognitiva de um especialista pela sua produção textual, sendo assim uma investigação a posteriori . Assim, podemos identificar em uma análise epistemológica, o quanto este especialista/cientista se afasta ou se aproxima dos demais de sua área 7 científica, evidenciando o paradigma ou revelando algo novo, um outlier . Andamos nesta direção por concordarmos com o Perspectivismo, onde o mundo, sendo complexo, necessita de diferentes visões que tragam um caráter evolutivo, alterável e mutante ao conhecimento. Justamente o Realismo e a sua realidade é que irão garantir a integração destes pontos de vista.

7 Até mesmo de outros domínios, evidenciando a multidisciplinaridade e a interdisciplinaridade.

5

1.2 do Recorte do Domínio Matemático, Fractal A ontologia criada teve como domínio específico, um recorte da matemática: Fractal. O conhecimento específico e especialista foi conduzido pelo professor Luiz Bevilacqua, professor titular e emérito da COPPE/Universidade Federal do Rio de Janeiro.

A construção da Ontologia de Domínio Fractal, pressupondo conter os conceitos que representassem o saber fractal de maneira paradigmática, foi construída a partir da Mineração de Textos de um conjunto de 9 (nove) livros textos, criteriosamente escolhidos pelo professor especialista. Tais livros emblemáticos na área de fractal, Figura 2, encontravamse disponíveis na língua inglesa, daí o motivo da ontologia ser criada neste idioma.

Os livros adotados foram classificados a partir de suas especificidades, ou seja, livros estritamente técnicos, livros voltados para aplicações em outros domínios ou de natureza mista. Dentre os estritamente técnicos, temos os autores: Kenneth Falconer, JeanFrançois Gouyet e HeinzOtto Peitgen & Hartmut Jürgens & Dietmar Saupe; entre os voltados para aplicações, James B. Bassingthwaite & Larry S. Liebovitch & Bruce J. West, Donald L. Turcotte e Edward N. Lorenz e, finalmente, os de abrangência mista, Benoit B. Mandelbrot, Jens Feder e Manfred Schroeder.

Figura 2 – Livros Adotados para Extração do Paradigma Fractal

6

1.3 da Organização da Dissertação Estruturada em 8 (oito) capítulos, esta dissertação discorre no capítulo 2 as motivações que originaram as ideias inspiradoras na busca de uma metodologia que permitisse investigar o entrelaçamento dos saberes, por uma perspectiva mista entre Filosofia e Ciências da Computação. Descritas em 6 (seis) páginas, tal capítulo possui um foco na Filosofia da Ciência e pode parecer a princípio deslocado do todo, mas de fato serviu de sêmen para este trabalho e, caso queiram, pode ser deixado de lado sem prejuízo dos demais capítulos.

No capítulo 3 são relatadas as definições de ontologia e as metodologias investigadas na literatura para a construção de uma ontologia. São apresentadas as técnicas de Mineração de Textos, principalmente TfIDF e significância , que foram utilizadas para a construção da Ontologia de Domínio Fractal. O capítulo 4 apresenta os resultados obtidos com as técnicas de Mineração de Textos, para obtenção dos conceitos e relações que representam o paradigma do recorte matemático Fractal, bem como os passos da construção da ontologia. O capítulo 5 relata a utilização da técnica de Link Analysis para validar os conceitos obtidos, em uma abordagem contextual.

No capítulo 6, temos o relato de um protótipo implementado, originando uma ferramenta Web para buscas contextuais por aproximações ontológicas baseadas na Ontologia de Domínio Fractal. Esta perspectiva contextual permite uma mudança na consulta de conceitos e documentos relevantes, permitindo um deslocamento no objetivo central de pesquisas, ou seja, de conceitos ou substantivos expressados individualmente para uma perspectiva de cenário ou fundo epistemológico do saber em questão. Analisando conceitos relacionados, o que já imbrica um conhecimento na nomeação da relação, permite a recuperação de documentos do Corpus devidamente classificados pela técnica de Vector Space Model (VSM).

O capítulo 7 foi destinado às conclusões, enquanto o último capítulo discorre sobre os possíveis desdobramentos e ideias decorrentes desta dissertação.

7

CAPÍTULO 2. das Motivações A motivação condutora para a realização desta dissertação se condensa na questão: Como é possível alargar o conhecimento? Esta questão foi gerada em discussões no contexto da Filosofia da Ciência, acerca do conceito de paradigma e de influências da Sociologia da Ciência.

A Sociologia da Ciência considera que a realidade na ciência, não passa de uma construção coletiva. Em meados de 1929, Karl Mannheim, sociólogo da ciência, preconizava que o conhecimento se forma no contexto de situações históricas e sociais, afirmando que “...ninguém nega a possibilidade da pesquisa empírica e ninguém sustenta que os fatos não existem. Entretanto a questão da natureza dos fatos constitui em si mesma um problema a ser considerado. Eles existem para a mente sempre dentro de um contexto intelectual e social. A particularidade de poderem ser compreendidos e formulados já implica a existência de um aparelho conceitual” (Rosa, 2006).

Ora, a área de Mineração de Dados e Textos, ávidas por padrões em coleção de dados, encontram nesta afirmação os elementos essenciais para descoberta de conhecimento, ou seja, categorias ou classes implicadas por um aparelho conceitual ao lidar com uma massa de dados oriunda de uma construção coletiva. Daí surge uma primeira inspiração. Como nossa abordagem se concentra em Mineração de Textos, será possível explicitar e alargar o conhecimento a partir de livros destinados a revelar conhecimentos científicos?

O conteúdo das teorias científicas, segundo Mannheim, é influenciado por alguns pontos epistemológicos, a saber:

 o pensamento se realiza por categorias historicamente constituídas e a linguagem é a forma pela qual se expressa;  a atividade científica é prescrita por uma epistemologia, explícita ou implícita, e esta se liga a uma ontologia 8 e uma metafísica;  a visão de mundo moderna é fruto de uma ontologia substancialista, considerada adequada para as ciências naturais;  as ciências históricas e humanas necessitam de uma outra base que expresse o caráter processual em lugar do substancialismo;

8 Ontologia aqui não é tratada no sentido da Ciência da Computação atual.

8

 uma nova epistemologia mais ampla e genérica é necessária, tal que inclua as ciências naturais como caso limite.

Nestes pontos percebemos persistir uma dicotomia entre ciências naturais e sociais, principalmente no aparelho conceitual. Contudo, ainda acreditamos que uma investigação através de ontologias possa minimizar a distância entre estas, porém nesta dissertação trataremos apenas de um único recorte científico.

Mannheim, juntamente com o químico e filósofo Michael Polanyi e, ainda, um grupo denominado “ the Moot ” (ao qual fazia parte T. S. Eliot), cunharam o termo clérigo do conhecimento . Tal termo era designado a uma elite, intelligentsia , cujos membros se reconhecem devido a um certo treinamento (Mullins et al .). A formação acadêmica do cientista pode induzilo a ver o mundo de uma certa forma, nos moldes de um paradigma (sentido atribuído por Thomas Kuhn 9). O reconhecimento pode ser dado a uns e negado a outros, não somente pela competência, mas também pela adaptação ao paradigma. Aqui reside o ponto ao qual acreditamos ser possível revelar através de uma investigação epistemológica orientada por ontologias: o quanto muitos seguem os mesmos conceitos.

Michael Polanyi, também, pretender alertar sobre um caminho único pelos cientistas, ao dizer que “não podemos indagar por uma mente comum ou uma ação comum por parte dos membros do clérigo. Eles possuem uma função comum, (...) eles têm ao menos um interesse comum – o interesse de sobrevivência do clérigo, (...) mas eles não possuem uma concordância de como promover isto. Concordância e ação comum somente serão possíveis por um grupo específico do clérigo. Quando o clérigo forma um grupo onde a concordância é possível, isto se dá devido a afinidades que diferenciam estes de outros clérigos. (...) a primeira função do clérigo é manter a herança mental viva e conduzila a seus sucessores, (...) o crescimento do conhecimento continua somente porque existem nos dias de hoje cleros especialistas, como no mundo da ciência” (Mullins et al .).

Tendo em mente que em cada domínio específico dos saberes, existem pequenos grupos de especialistas, Polanyi aponta que a função destes reside na supervisão do aprendizado dos novatos, os posicionando profissionalmente, sancionando ou proibindo seus produtos profissionais. Com uma posição bastante

9 Thomas Kuhn, nos dias de hoje, é quase sinônimo de paradigma, contudo tal conceito já tinha sido concebido por Polanyi.

9 crítica acerca de uma comunidade dedicada e oprimida por um conjunto de pensamentos majoritários, Polanyi implora pelo exercício crítico e racional para que ocorram mudanças, um choque de autoridade para que novas inspirações superem a tensão criada pela possibilidade do novo.

Como resolver o conflito que permita mudanças? Continuando com as não muito animadoras palavras de Polanyi: “Não existe alguém que decida, é necessário para cada geração, em último caso, o uso da força. Durante este processo, excêntricos e imprudentes são colocados em cheque e gênios não reconhecidos correm o risco da fome. Assim é que cada geração é largada por sua própria conta – escutar atentamente a inspiração original de nossa civilização, sua própria consciência e Deus” (Mullins et al .).

Por outro lado, Thomas Kuhn atribui a possibilidade de tais mudanças somente através do que ele cunhou como mudança de paradigmas 10 . Kuhn define paradigma como (Rosa, 2006):

 um resultado científico fundamental que inclui ao mesmo tempo uma teoria e algumas aplicações, os resultados das experiências e da observação... Um resultado cujo completar está em aberto e que deixa toda espécie de investigação ainda por ser feita... Um resultado aceito no sentido de que é recebido por um grupo cujos membros deixam de tentar oporlhe uma teoria rival ou de criar alternativas;  exceto durante os períodos ocasionais extraordinários, os praticantes de uma especialidade científica madura aderem profundamente à determinada maneira de olhar e investigar a natureza baseada num paradigma. O paradigma diz lhes quais tipos de entidades que o universo está povoado e qual a maneira como essa população se comporta; além disso informa quais questões sobre a natureza podem legitimamente ser postas e quais técnicas que podem ser devidamente aplicadas na busca de respostas;  o esforço continuado para ajustar os paradigmas à natureza produz um conhecimento e uma compreensão de pormenores esotéricos que não poderiam ter sido alcançados de nenhuma outra maneira;

10 O livro Conhecimento Pessoal , escrito em 1958 por Polanyi, influenciou a Estrutura das Revoluções Científicas de Thomas Kuhn. Segundo Moleski, a descrição de mudanças na estrutura interpretativa de Polanyi se assemelha fortemente com a descrição de mudança de paradigmas de Kuhn (Moleski).

10

 o praticante de uma ciência madura sabe com previsão razoável a que tipo de resultado pode chegar com a sua investigação, o que é uma condição favorável para detectar um problema de investigação que saia fora do esperado;  quando falham repetidas vezes e cada vez mais, então um setor da comunidade científica depara com o que chamei de crise. Ao reconhecer que algo está fundalmentalmente errado na teoria com que trabalham, os cientistas tentarão articulações mais fundamentais da teoria do que as que eram admitidas antes. É típico, nos tempos de crise, encontrar numerosas versões diferentes da teoriaparadigma;  unicamente em situações desse gênero uma inovação fundamental na teoria científica não só é inventada, mas aceita.

Polanyi e Kuhn duelaram pelo direito de se denominarem “pai” do conceito de paradigma. Para Polanyi, “... a estabilidade do sistema naturalístico, ao qual aceitamos atualmente, se assenta na mesma estrutura lógica. Qualquer contradição entre uma noção científica particular e os fatos da experiência será explicada por outras noções científicas; existe uma reserva de possíveis hipóteses científicas prontas para explicar qualquer evento concebível. (...) Neste momento, somente desejo fornecer ilustrações para mostrar como, no da própria ciência, a estabilidade das teorias contra a experiência é mantida por uma reserva epicíclica que omite concepções alternativas enquanto germe...”. Polanyi continua dizendo que contradições nas concepções científicas correntes são normalmente denominadas anomalias e, estas, são as suposições mais a mão disponível pela reserva epicíclica de qualquer teoria. Polanyi ilustra como uma série de observações são consideradas cientificamente importantes em uma determinada época e em poucos anos passam a ser completamente desacreditadas, sem ao menos serem reprovadas ou realmente testadas, simplesmente porque a estrutura conceitual da ciência se alterou, tornando os fatos aparentemente desacreditados. Concluindo nesta seção do livro, Polanyi afirma que os “... filósofos tratam a coerência como critério de verdade, porém a coerência nada mais é do que um critério de estabilidade. (...) a atribuição da verdade em qualquer alternativa particular estável é um ato confidente, o qual não pode ser analisado em termos não compromissados” (Polanyi, 1958).

Identificamos dois pontos neste parágrafo que futuramente servirão de investigação em trabalhos futuros, neste âmbito da Mineração de Textos, que são:

11 germe e anomalias. O quanto ambos podem ser o mesmo? Não seriam desvios para o novo, alargando o conhecimento? Deixaremos isto para outra ocasião.

Evidenciase, assim, a existência de grupos sociais detentores de determinados tipos de conhecimentos. Polanyi e Kuhn possuem fortes influências no debate acerca da cumplicidade e dos métodos utilizados pela ciência enquanto comunidades sociais. Na concepção de Polanyi há um conhecimento tácito ditado pela comunidade científica de cada área do conhecimento, a qual cada cientista desta área busca se adaptar para não ser excluído. A análise de Polanyi mostra que cientistas são influenciáveis, submetendose ao controle por sua comunidade de pares (Rosa, 2006). Influências, estas, que nos levam a questionar a possibilidade de identificar claramente tais pontos nos conteúdos escritos de determinados saberes.

Nossa intenção é investigar uma metodologia, através do uso de ontologias, como representação do conhecimento, para explicitar o quão um determinado grupo caminha na mesma direção e outros se afastam. É possível identificarmos na produção textual tal uniformidade imposta? Por outro lado, é possível que o conhecimento seja comunicado diminuindo a distância para com os especialistas?

De maneira objetiva, almejamos construir ontologias como representação do conhecimento, com o propósito de responder as duas questões do último parágrafo. A primeira, podendo abranger diferentes domínios específicos do saber ou dentro do mesmo domínio, identificando a distância entre os saberes e até mesmo entre cientistas, ficará para trabalhos futuros, a segunda, tentará nesta dissertação representar um conhecimento que permita ser comunicado e consultado por especialistas, generalistas e, principalmente, leigos.

Por fim, uma última observação sobre comunicar algo e a linguagem. Ao examinar a natureza do conhecimento e a natureza da pesquisa científica, Polanyi se concentra sobre como conhecer algo poderia ser comunicado. A linguagem teria um papel vital ao compartilhar o conhecimento e esta é uma das principais características da ontologia pragmática atual. À natureza humana, para Polanyi, existiria um conhecimento genuíno e de difícil transferência, o conhecimento tácito. Todo conhecimento tem uma componente tácita que coopera com uma componente explícita, como se fosse uma interação entre o pessoal e o formal. A visão de conhecimento de Polanyi se daria como um contínuo entre o tácito e o explícito. Como todo conhecimento inclui um grau do componente tácito, através desta gradação

12 altamente imbricada na linguagem, um especialista poderia comunicar algo acerca do conhecimento de sua área. Tal consciência tácita estaria de alguma maneira conectada com a realidade objetiva.

O pensamento de Polanyi sob a ótica de Grant (Grant, 2007), pode ser resumido diagramaticamente conforme a Figura 3.

Figura 3 Visão de Polanyi acerca do Conhecimento adaptado de (Grant, 2007)

Enfim, comunicar um conhecimento, explicitando o tácito, não deve se restringir às ocasiões entre mestre e discípulo. O conhecimento tácito, mais próximo do pessoal, deixando de ser inefável, somente partindo de um ato não consensual, ou seja, somente a partir da perspectiva da cabeça de um cientista.

Assim, a nossa principal motivação ganha forma ao aproximar distintas cabeças, representadas por seus conhecimentos a posteriori textuais e sistematizados por ontologias, possibilitando o alargar do conhecimento.

13

CAPÍTULO 3. da Concepção de Ontologias e Afins Ontologia tornouse um conceito explorado por diversas áreas dos saberes, até mesmo por disciplinas tão díspares para muitos, como Filosofia e Ciência da Computação. Porém esperamos que ao final da dissertação, encontremos uma porta aberta para a reconciliação entre Filosofia e Ciência.

3.1 de Ontologias e suas Definições O termo Ontologia tem sua origem em intenções filosóficas que remetem à Grécia Antiga, principalmente relacionada ao filósofo grego Aristóteles. Por outro lado, a partir da Inteligência Artificial, a atual arena que envolve as áreas de Representação do Conhecimento ( Web Semântica), Recuperação da Informação (Sistema de Buscas e Banco de Dados), Linguística Computacional (Processamento de Linguagem Natural) e Análise de Dados (Aprendizado de Máquina e Mineração de Textos), se apropria deste termo para um tratamento formal por computadores 11 .

3.1.1 da pergunta, O que é Ontologia ? Desde os primórdios da Metafísica, a ontologia se apresenta como a ciência do ser , daquilo que é e sendo, investiga as coisas em todas as áreas da realidade, ou seja, uma investigação em relação a seus tipos, estruturas, processos e relacionamentos. Aristóteles buscou a construção de uma classificação categorial exaustiva dos entes na realidade, na tentativa de fornecer respostas sobre as aparências e a configuração do Universo. Através de uma taxonomia dos entes na realidade, do microcosmo ao macrocosmo, Aristóteles acreditava ser possível apreender toda a realidade em apenas um sistema de categorias. Husserl, outro filósofo mais contemporâneo, buscava ontologias regionais que estruturavam um sentido do ser em diferentes domínios do conhecimento. Ao invés de uma única ontologia, as categorias poderiam ser aplicadas e especializadas cada vez mais em domínios mais específicos, mais restritos, criando várias específicas ontologias.

A classificação desejada deveria responder a seguinte questão: Quais classes de entidades são necessárias para uma descrição e explicação do que acontece no Universo? O Realismo está na base de qualquer ontologia. Filósofos como Kant, Frege, Russel e Wittgenstein consideravam que a estrutura da linguagem era uma chave para a estrutura da realidade e, que, a estrutura da realidade seria capturada sintaticamente por uma lógica, a Lógica de PrimeiraOrdem, empregada em algumas

11 Acreditamos em uma forma de aproximação entre Filosofia e “ Computadosofia” (o saber tratado por computadores), de modo a preencher as motivações desta dissertação, descritas na seção anterior.

14 ferramentas de ontologias atuais. Denotando por ‘ F’, o que de geral existe na realidade (universal) e ‘ a’,’b’,’c’, etc., o que seria individual, a realidade seria sintaticamente capturada por F(a) (conhecida como Fantologia 12 ) ou, ainda, pela relação do par ordenado de indivíduos, R(a,b) .

Assim, além de um formalismo lógico para apreender a realidade através da linguagem, o nosso tempo passou a classificar os conteúdos de documentos em linguagem natural. Ontologias, taxonomias e tesauros, elementos tratados pela Filosofia ou pela Biblioteconomia, passaram a circular no meio da construção de algoritmos computacionais. Tais algoritmos focavam no desenvolvimento de ferramentas poderosas no tratamento da informação, da documentação e, principalmente, na representação de conhecimento. Ainda se confunde organização do conhecimento como apenas uma classificação de documentos. Há de se admitir que por detrás do conceito de conhecimento e sua organização, existe um conteúdo mais profundo, tanto filosófico, como prático (Currás, 2004). Admitimos sim que a classificação de documentos é um passo importante na organização do conhecimento, contudo não se trata do processo inicial. Fazse necessário uma carga ontológica, na concepção filosófica, para que possamos um dia entender cognitivamente uma coleção textual orientada pelos saberes.

A ontologia que se pretende, vai além de um tesauro. Ao se admitir que uma ontologia se assemelhe a uma linguagem documental codificada e controlada, como um tesauro, cometese um erro de ordem estrutural. Enquanto um tesauro se inicia com uma ordenação de seus termos em hierarquias e relações semânticas e sintáticas, a ontologia constrói sua ordenação a partir de peculiaridades e propriedades de seus termos (Currás, 2004).

Historicamente, em 1993, no contexto da Inteligência Artificial, surge uma definição para ontologia, amplamente disseminada, em uma direção mais próxima da filosofia. Admitindo que o ato conceitual sobre um domínio específico é parte necessária para a aquisição de conhecimento, Thomas Gruber 13 define ontologia como uma especificação explícita de uma conceituação 14 (Gruber, 1993) . Um sistema

12 Fantolog y em inglês. 13 Praticamente, qualquer texto sobre ontologias irá citar a definição dada por Gruber. Tal definição é quase uma definição ubíqua. 14 No original temos conceptualization. Entendemos que conceituação é uma tradução aquém do significado desejado pelo autor, mas não nos estenderemos aqui e nem traduziremos como “conceitualização”. .

15 baseado em conhecimento, na proposta de Gruber, deve considerar o que “existe” como exatamente aquilo que pode ser representado. Em um determinado domínio, seu respectivo conhecimento deve ser representado através de um formalismo que possa remover ambiguidades frequentes no uso da linguagem natural. Pormenorizando a definição de Gruber e privilegiando o aspecto formal, Uschold e Gruninger (2004) tratam ontologia como uma especificação formal e explícita de uma conceituação compartilhada , entendendo:

• conceituação , como um modelo abstrato de um fenômeno do mundo onde pessoas identificam os conceitos relevantes deste fenômeno (restrito a um domínio); • especificação, como uma explicitação através de nomes e definições, visando o entendimento dos conceitos e relacionamentos do modelo abstrato em questão; • formal, como codificada em uma linguagem passível de tratamento por computadores; • compartilhada, como um propósito ao uso e reutilização da ontologia por diferentes aplicações e comunidades.

A pesquisa científica, modelando a realidade, tende a criar generalizações acerca de um fenômeno observado e busca ordens e regularidades de modo a reconhecer tal fenômeno em outra ocasião, com alguma coerência lógica. Nestes modelos, essenciais para a conceituação e especificação , surgem 3 (três) noções importantes:

1. Universais; 2. Particulares e Instâncias; 3. Relacionamentos.

Os universais garantem a abstração e a estrutura filosófica da realidade, permitindo o reconhecimento de objetos posteriormente. Enquanto os objetos particulares existem em um determinado tempo e um determinado lugar, os universais não possuem tempo e lugar fixos, estão em todos os tempos e todos os lugares. O papel da pesquisa científica é investigar a natureza dos universais, instanciados por entidades ou elementos de diferentes domínios do saber, seja a Biologia, a Química ou qualquer outra área da ciência.

16

Os particulares, por sua vez, estando no espaço (lugar) e no tempo, além de sua finitude, dependem 15 de outros elementos ou universais para serem instanciados. Assim sendo, toda ontologia deverá representar o que de essencial estrutura um determinado saber, ou seja, deve ser composta de universais acrescida de instâncias destes universais.

Os universais são explicitados nas ontologias através de classes (ou conceitos para nosso objetivo). Classes também são entidades. Uma classe é uma coleção de particulares referenciados por um termo geral, que se aplica a todos os membros da classe. Todo particular aplicável a este termo geral será membro da dita classe. Todos os universais são classes, porém nem toda classe será um universal. É necessário ter em mente que uma ontologia se propõe a representar e divulgar conhecimentos e quando focada para reuso, podem surgir classes como ´mulheres africanas de mais de 60 anos com Aids´ , mesmo sem um universal que a corresponda. Tais classes são ditas extensões de universais.

A terceira noção se refere aos relacionamentos. Toda hierarquia de termos, no sentido ontológico, é constituída de relações entre os termos. Uma taxonomia é uma hierarquia de termos onde temos apenas uma única relação, que é a relação que obedece ao critério lógico adotado para sua construção. Contudo uma ontologia é composta por n relações, a saber: relações entre universais, relações entre universais e instâncias e, ainda, relações entre instâncias. Tomemos o elemento químico Hidrogênio. Podemos analisálo a partir da natureza do universal Hidrogênio, dizendo o que é o Hidrogênio, pelo viés de sua estrutura, sua valência, etc., ou seja, conhecê lo por relações taxonômicas . Todavia, ao analisarmos o Hidrogênio se relacionando com outros universais da tabela periódica, podemos entendêlo melhor (Spear, 2006), com uma compreensão ampliada. Este último tipo de relacionamento é conhecido como relações nãotaxonômicas .

O Hidrogênio não se conecta com qualquer elemento da tabela periódica, existem restrições. Os termos, em uma ontologia, terão suas definições e relações restringidas por algum tipo de formalismo lógico. Este formalismo será dado, na maioria das ocasiões, pela Lógica de Primeira Ordem, como dissemos anteriormente. Além de efetuar inferências para obtenção de relacionamentos não observados inicialmente, o uso de restrições ou regras formais permitem transformar os termos

15 Este caráter de dependência é um dos primeiros traços da similaridade entre saberes.

17 canônicos iniciais em uma “imagem” mais refinada da realidade tratada. Uma vez que as regras também encerram em si conhecimentos, a soma total de conhecimentos em uma ontologia será dada pela união de seus termos e de suas regras inferenciais (Grenon et al ., 2003).

Um tipo clássico de relação e que existirá em qualquer ontologia é a relação is_a 16 (relação taxonômica) . Algo, um universal, será alguma coisa, um outro universal, explicitado por esta relação. Sabendo que um “bóson é uma partícula elementar”, teremos que os termos “ bóson” e “partícula elementar ” farão parte de uma ontologia se relacionando pela relação is_a . Outra clássica relação, nãotaxonômica, é a relação part_of (parte de). Um pulmão não é um José , porém um pulmão é parte de José . As relações não possuem restrições quanto a sua quantidade, dependem diretamente do engenheiro de ontologias. Relações como é_adjacente, é_contínuo, possui_4patas, etc . podem surgir em qualquer ontologia biológica, por exemplo. Este grau de liberdade na escolha de termos e de relações acarretam problemas relacionados à compatibilidade e granularidades entre ontologias, visto que dentro de um mesmo domínio específico, poderão surgir várias ontologias construídas por mentes diferentes. Contudo, não nos ateremos a estes problemas.

3.1.2 dos Tipos de Ontologias Tipificando as ontologias, temos 4 (quatro) tipos distintos:  Ontologia de Alto Nível (ou Superior)  Ontologia de Domínio  Ontologia de Tarefas  Ontologia Aplicada

A ontologia de alto nível deverá conter um conjunto de universais de alta expressividade, de modo a se tornar a espinha dorsal de qualquer ontologia. Ao dizermos qualquer ontologia , isto implica em um conjunto de universais tidos como categorias , no sentido do termo técnico aristotélico ou kantiano.

16 Estamos usando a notação em inglês, porém poderíamos ter usado é_um .

18

Figura 4 – Primeira Ontologia da História: Porfírio sobre as Categorias de Aristóteles (séc.III) extraído de (Smith, 2008)

A primeira ontologia da história surge no século III (Figura 4) classifica ndo as categorias em essência, quantidade, qualidade, relativo (relação),(relação), lugar, tempo, posição, possuindo , agindo e sofrendo . Tais categorias são consideradas como fundamentais em qualquer representação do conhecimentoconhecimento acerca da realidade, ou seja, as mais significativas generalizações.

Existem algumas ontologias de domínios superiores candidatas à ontologia com a letra “O” em maiúsculo. Ora, c omo construir uma ontologia dita neutra de interessesinteresses e que sirva de esqueleto comum a todas as ontologias ? Como integrar, a partir do Perspectivismo, diferentes ontologias de uma mesma área de atuação? Perguntas em aberto.

Citando algumas ontologias de alto nível, temos:

 SUMO ( Suggested Upper Merged Ontology ),

A ontologia SUMO, iniciativa do IEEE ( Institute of Electrical and Electronics Engineers ), uma das maiores ontologias formais pública, co ntem cerca de 20.000 termos e 70.000 axiomas ao combinar todas as ontologias de domínio . Construída com a linguagem KIF ( Knowledge Interchange Format ), se

19 concentra nas áreas de pesquisa, de buscas, de linguística e de mecanismos de raciocínios (SUMO, 2011);

 Sowa Diamond

A ontologia desenvolvida por John Sowa, inspirada na lógica simbólica dos filósofos Charles Sanders Peirce e Alfred North Whitehead, se apresenta como um estudo das categorias de coisas que existem ou possam existir em um determinado domínio. A ontologia é definida como um catálogo de tipos de coisas, assumidas como existentes em um domínio de interesse (D), a partir da perspectiva de uma pessoa usando uma linguagem (L) ao discorrer sobre o domínio ( D). Os tipos representam predicados, termos, conceitos e relações de L ao discorrer sobre D. Sowa comenta que uma lógica nãointerpretada, como o cálculo de predicados, grafos conceituais ou KIF se apresentam como ontologicamente neutras, porém por si só não dizem nada sobre nada. A combinação entre uma lógica com uma ontologia proporciona à linguagem uma expressividade, principalmente através de relacionamentos sobre entidades de um domínio de interesse (Sowa, 2011).

 DOLCE (D escriptive Ontology for Linguistic and Cognitive Engineering )

Desenvolvida sob orientação filosófica aristotélica e voltada para a Web Semântica , tem uma tendência cognitiva, pois pretende capturar as categorias ontológicas que subsumem a linguagem natural e o senso comum humano. Esta ontologia é considerada como uma ontologia de particulares, ou seja, entidades sem instâncias, ao contrário dos universais que possuem entidades com instâncias. Diferentemente das demais, parte do princípio que um módulo único e monolítico não reflete diferentes propósitos, portanto se baseia em uma biblioteca de ontologias fundamentais ( WonderWeb Foundational Ontologies Library) , minimizando incompatibilidades semânticas (Masolo,2011).

 BFO (Basic Formal Ontology ),

A ontologia superior BFO, criada pelo instituto IFOMIS ( Institute for Formal Ontology and Medical Information Science ), desenvolvida sob orientação filosófica aristotélica, sobrepondo as ontologias DOLCE e SUMO, é formalizada pela Lógica de Primeira Ordem. Diferentemente das anteriores, a ontologia BFO é focada em prover uma genuína ontologia de alto nível, servindo como esqueleto ontológico a qualquer ontologia de domínio na área científica.

20

Diferenciase por não conter termos físicos, químicos, biológicos ou qualquer outro termo que possa conflitar com termos de um domínio científico específico (BFO, 2011).

Para termos uma pequena ideia sobre ontologias de alto nível, citaremos a ontologia BFO, amplamente utilizada na área de pesquisa biomédica nos Estados Unidos. Esta ontologia é composta de duas perspectivas ontológicas, SNAP (Figura 5) e SPAN, visando representar a realidade espaçotemporal, e se desenvolve a partir de 3 (três) dicotomias, a saber: entidades independentes e dependentes, continuantes e ocorrentes 17 , universais e particulares.

Não nos aprofundando em todas as dicotomias, descrevemos rapidamente a segunda dicotomia. Esta dicotomia (continuantes e ocorrentes) trata do modo como as entidades existem no tempo. Algumas entidades existem de modo contínuo no tempo, mantendo suas identidades independentes de mudanças temporais, e persistem sendo o que são em todos os instantes do tempo em que existem. Imaginemos uma série temporal de uma entidade, em qualquer ponto desta série iremos reconhecer a existência da entidade em questão. Tais entidades são ditas continuantes. A Terra, você, uma bactéria, o vermelho, são exemplos de continuantes. Encontramos em qualquer momento toda a bactéria. Mesmo que você perca todos os seus cabelos, continuará sendo você.

Os continuantes são constituídos de partes espaciais , como uma bactéria é constituída de membrana, núcleo e citoplasma, tudo ao mesmo tempo (Smith, 2008). Por outro lado, algumas entidades não possuem um determinado ponto em que estejam plenamente presentes. São entidades que se desdobram ao longo do tempo como processos, eventos, atividades e mudanças; ocorrem no tempo e se manifestam em lapsos temporais, em fases. Tais entidades são ditas ocorrentes . A reprodução de uma bactéria, o pouso de um avião, a passagem de um furacão, o seu sorrir. Os ocorrentes são constituídos de partes temporais , são entidades quadridimensionais.

Muitos admitem que todas as entidades deveriam ser vistas como entidades quadridimensionais (Jansen, 2008). Jansen exemplifica: “Sócrates e sua caminhada exibem dois modos distintos de existência; enquanto a caminhada é claramente um ocorrente, Sócrates (nele mesmo) também é claramente um continuante

17 Os termos originais em inglês são continuants e occurrents , optamos para os dois termos por neologismos que identifiquem agentes.

21 tridimensional”. Para darmos cont a da realidade necessitamos tanto de continuantes como de ocorrentes .

Figura 5 – Ontologia SNAP

As ontologias construídas a partir do esqueleto BFO são focadas exclusivamente em atividades canônicas, ou seja, relacionadas ao cotidiano de laboratórios científicos, contendo apenas termos da pesquisa prática (principalmente na área de Biologia). Partem de porções das ontologias SNAP ( Figura 5) e SPAN, e seguem a mesma inspiração metodológica utilizada na construção de BFO , conforme a Figura 6 (Smith, 2008).

Figura 6 – Relações Primitivas de um Recorte de BFO

22 Evidenciase, assim, uma enorme complexidade e abrangência quando se fala em ontologias de alto nível. Muitos questionam este tipo de ontologia, apontandoas como perda de tempo, preferindo se concentrar em ontologias ditas “mais leves”, focando em uma mínima estrutura terminológica (por vezes apenas uma taxonomia) que atenda as necessidades de uma comunidade específica (Masolo et al ., 2011).

Conseguintemente surgem as ontologias de domínio. Uma vez determinado o recorte da realidade (uma determinada área do saber científico), o procedimento para construção de uma ontologia de domínio pode ser análogo às ontologias de alto nível ou de maneira menos rigorosa, seguindo alguma metodologia menos geral e abstrata (conforme veremos na seção 3.4). A ontologia de domínio deverá ser um sistema de termos hierarquizados e agrupados a partir de suas propriedades e relações, de maneira a caracterizar as entidades de um determinado domínio específico. A generalidade não está afastada da ontologia de domínio, porém se restringirá a uma generalidade específica de um determinado saber.

Por fim, as Ontologias de Tarefas descrevem conceitos que são específicos de uma tarefa, como sintomas para a tarefa de diagnóstico médico a as Ontologias Aplicadas são consideradas de menor nível de abstração e combinam a Ontologia de Domínio e a de Tarefas, estendoas com conceitos mais refinados.

3.1.3 das Linguagens Formais de Ontologias Embora a noção de ontologias seja independente da Internet, as ontologias passaram a ter um papel especial na arquitetura da Web Semântica . Atualmente é possível construir uma ontologia e imediatamente disponibilizála na Internet como um site de conhecimento (Mika, 2007). O uso de ontologias em máquinas não tem como intenção apenas o seu reuso e compartilhamento na Internet, mas sim que a mesma seja interpretada por máquinas, ou seja, que possua um forte entendimento semântico. Diversas técnicas surgiram para o tratamento de termos de modo a tratá los de maneira controlada.

O Espectro Ontológico (Figura 7) de Leo Obrst (Obrst, 2003) mostra, ao longo do tempo, o crescimento da riqueza semântica e da complexidade nas linguagens lógicas adotadas para expressar ontologias.

23

Figura 7 – Espectro Ontológico de Leo Obrst

Em decorrência do avanço da Web Semântica , linguagens voltadas para ontologias foram projetadas e recomendadas pela World Wide Web Consortium (W3C), tais como: Resource Description Framework (RDF) e Web Ontology Language (OWL). Ambas desenvolveram mecanismos para reconhecimento de termos e relações em ontologias utilizando identificadores globais únicos (URI) para a Internet. Na linguagem RDF, expressões são formadas através de declarações conhecidas como triplas , na forma (sujeito,predicado,objeto). O sujeito da declaração necessita ser um URI ou um quantificador existencial da linguagem, o predicado necessita ser um URI e o objeto pode ser um URI, um quantificador existencial da linguagem ou um conjunto de caracteres. Por sua vez, a linguagem OWL foi projetada para adicionar construtores da Lógica de Descrição, (Description Logic DL) à RDF, aumentando significantemente a expressividade da linguagem RDF. A linguagem OWL possui por 3 (três) versões ( Lite, DL e FULL ), se diferenciando pelo aumento de expressividade

(OWL Lite ⊆ OWL DL ⊆ OWL Full ). A DL é um conjunto de linguagens para representação do conhecimento, baseadas em uma semântica formal de acordo com a Lógica de Primeira Ordem.

3.2 das Considerações sobre Mineração de Textos ( Text Mining ) A estratégia adotada nesta dissertação para a construção da Ontologia de Domínio Fractal terá as técnicas de Mineração de Textos como subsidiárias das informações necessárias para tal tarefa. Diferentemente da confiabilidade das origens das informações utilizadas nas técnicas de Mineração de Dados, onde se é possível obter aplicações bastante efetivas, gerando dados com alto grau de confiança, a Mineração de Textos parte de uma coleção de dados nãoestruturados 18 . Nem sempre

18 Embora algumas coleções de textos possam ter algum tipo de estruturação, como bases em XML, nesta dissertação trabalharemos exclusivamente com textos nãoestruturados.

24

é possível retirar as inconsistências de dados sem uma estruturação definida, o que acarreta na construção de um modelo que pode ser considerado impreciso por muitos (Konchady, 2006). Contudo, mesmo com tal imprecisão, é possível se obter bons resultados ao entendermos alguns pontos cruciais que distinguem Mineração de Textos, Recuperação da Informação ( Information Retrieval – IR) e Processamento de Linguagem Natural (PLN).

Mineração de Textos ainda é um conceito relativamente novo e que não possui uma definição estreita. Evidenciase como um conjunto de técnicas para manipulação e obtenção de informações sobre textos, que perpassam pela Inteligência Artificial, Estatística, Teoria da Informação e, principalmente, das pesquisas em Recuperação da Informação ( Information Retrieval – IR) e Processamento de Linguagem Natural (PLN).

As pesquisas sobre Recuperação da Informação, iniciadas em meados de 1960 com a chegada dos PC’s conectados a computadores de grande porte, se sofisticaram no sentido de encontrar informações em base de dados textuais. O modelo de busca e recuperação da informação a partir de palavras chaves ainda é amplamente utilizado nos atuais buscadores na Web . Palavras simples (unigramas), compostas por duas palavras (bigramas) ou por n palavras ( ngramas) são utilizadas para busca de documentos relevantes. Este aumento no número de palavras nas buscas impôs um mínimo uso de linguagem natural ao formular consultas baseadas em perguntas, do tipo Qual a capital do Brasil?

Por outro lado, o Processamento de Linguagem Natural surgiu como um sub tópico da Inteligência Artificial, ao idealizar máquinas que pudessem se comunicar em linguagem natural com seres humanos. Neste caminho, a Inteligência Artificial se deparou com dois grandes problemas: alcançar o entendimento da linguagem natural na entrada e gerar uma saída compreensível em linguagem natural. O primeiro problema continua a não ter uma solução trivial. Contudo, “em vez de um profundo entendimento da linguagem, abordagens mais rudimentares obtiveram sucesso em tarefas específicas. O Processamento de Linguagem Natural poderia ser utilizado como um entendimento da análise ou síntese de textos e não necessariamente um entendimento dos textos” (Konchady, 2006). Assim sendo, a Recuperação da Informação e o Processamento de Linguagem Natural passaram a compartilhar algoritmos e métodos estatísticos, juntamente com a ajuda de dicionários léxicos, para responder questões mais elaboradas. Embora estas sofisticadas técnicas estocásticas

25 derivem seus resultados através de uma análise sintática e estatística de palavras (principalmente substantivos), o contexto semântico dos textos não seria capturado. Muitos ainda consideram que estes métodos estatísticos parecem ser inadequados para extração de um conhecimento contextual, porém para determinados propósitos são razoavelmente eficientes (Li et al ., 2009).

A Mineração de Textos possibilitou a construção de ferramentas que iriam além de um simples envio de questões a um buscador, permitiu que a resposta de tais buscadores pudesse ser manipulada no sentido de encontrar padrões, tendências e relacionamentos em uma base textual. A Mineração de Textos não substitui a Recuperação de Informação, tampouco o Processamento de Linguagem Natural, mas possibilita, juntamente com o uso de Ontologias, a construção de ferramentas e estratégias eficientes na produção de informação a partir de uma coleção de textos (principalmente de forma contextual).

3.3 de Técnicas de Mineração de Textos Úteis à Construção de Ontologias Tendo como ponto de partida a análise de eventos linguísticos de uma base textual, o Corpus, ao invés de uma tentativa de entendimento de seus textos, a eficiência dos resultados que adotaremos para esta dissertação advém de um modelo de probabilidade de alguns eventos linguísticos, como: ocorrência de palavras, co ocorrência de palavras, distribuição de probabilidades, informações mútuas, etc. As saídas deste primeiro modelo produzem uma redução na complexidade dos textos para a tarefa seguinte, tarefa de extração de palavras ou termos 19 representativos. Esta é considerada a tarefa mais essencial, apontando os mais prováveis termos candidatos a conceitos de uma ontologia de domínio. Esta transformação dos textos plenos para termos representativos, dependendo da técnica e ferramenta empregadas, permite um ganho substancial no custo computacional. Uma vez de posse dos termos relevantes ou representativos de uma base textual, estes são analisados derivando medidas e análises linguísticas, como veremos mais adiante.

3.3.1 da Importância de Substantivos e a Extração de Termos Obviamente todo texto possui palavras dispostas segundo uma ordem ou uma sintaxe, de modo que qualquer humano instruído possa entender e compreender o significado e/ou a informação que se deseja comunicar. Ao entendimento humano não

19 Não faremos distinção entre termos e palavras neste momento. Adotaremos conceitos apenas aos termos da ontologia de domínio final.

26

é possível juntar em uma sequência, qualquer combinação de palavras. As palavras possuem funções bem definidas, umas são palavras de contexto (substantivos, verbos, adjetivos e advérbios), enquanto outras são palavras funcionais (conjunções, pronomes, preposições e delimitadores). Estas palavras se relacionam sintaticamente gerando sentenças.

As palavras de contexto, geralmente, representam pessoas, animais, ideias, coisas ou lugares. Nas sentenças, as palavras funcionais referenciam as palavras de contexto a um contexto (Konchady, 2006). Esta organização gramatical das palavras, juntamente com a criação de vocabulários e dicionários, proporciona a riqueza semântica que o ser humano instruído dispõe para comunicar conhecimento. No entanto, estamos diante de uma tarefa: representar o conhecimento de um domínio específico a partir de uma combinação de conhecimentos específicos previamente escritos por especialistas, com o uso de computadores e sem uma leitura humana, ou seja, uma tarefa a partir de textos nãoestruturados.

Como dito na seção anterior, optaremos por um modelo de distribuição de probabilidades de eventos linguísticos 20 . Portanto, em um primeiro momento, haverá uma desconstrução das sentenças, objetivando reter automaticamente termos que possam significar algo a um especialista e que possam gerar automaticamente (sem um especialista) possíveis relacionamentos com outros termos.

A técnica mais simples para extração de termos, revelando conceitos em um Corpus, é a contagem da frequência dos termos. Nesta técnica todos os termos possuem a mesma importância antes da busca de termos relevantes. Em geral, tal abordagem advém do pressuposto que um termo frequente, em um conjunto de textos de um domínio específico, indica um conceito relevante (Cimiano et al ., 2009). Esta prática, de atribuir com um peso maior as palavras com ocorrências frequentes, foi implantada no início das pesquisas de Recuperação da Informação (Salton et al ., 1983). Com o decorrer destas pesquisas, alguns autores ( (Broglio et al ., 1995); (BaezaYates et al ., 1999) ) argumentaram que substantivos representavam a maior parte dos teores semânticos de um texto, em relação aos verbos, adjetivos ou

20 Não iremos mencionar tarefas clássicas da Mineração de Textos, como Stemming (redução de palavras à suas respectivas raízes etimológicas), Parts of Speech (POS, classificação das palavras de acordo com categorias sintáticas) ou Stop Words (palavras que não agregam conhecimento significativo a um contexto selecionado). Consideramos que tais tarefas estão embutidas nos softwares utilizados e, apesar de suas relevâncias, não terão um destaque maior para esta dissertação.

27 advérbios (Rezgui, 2007). Consequentemente, o desenvolvimento de métodos baseados em medidas ponderadas dos possíveis substantivos relevantes, como Tf IDF (term frequencyinverse document frequency ), em 1988, se mostraram mais eficientes do que a simples contagem de frequências.

A comunidade de linguística computacional continuou a explorar outras técnicas para extração de termos, gerando outras medidas sofisticadas. O trabalho de Frantzi, et al . (1999) considera que não somente a frequência de termos deve ser considerada, mas também o fato que termos podem ser aninhados uns aos outros, acarretando em um tratamento de vizinhança contextual e originando uma medida interessante, C value/NCValue (Cimiano et al ., 2009). Outras medidas e técnicas surgiram para extração de termos relevantes de uma coleção textual, contudo ainda não há um entendimento claro sobre que medidas funcionam melhor para determinadas aplicações e propostas (Cimiano et al ., 2009).

3.3.1.1 do Método Tf-IDF (Term frequency-Inverse Document Frequency) O método baseado apenas na frequência de um termo para extração de termos relevantes considera que todos os termos possuem igual importância antes do cálculo da frequência. Por vezes, tais termos (os frequentes) não são relevantes aos olhos de um especialista de domínio específico. Por outro lado, o método TfIDF atenua o efeito de termos que ocorrem frequentemente em uma coleção. A ideia por trás deste método é reduzir o peso ou a importância de termos frequentes, por um fator que aumenta com suas respectivas frequências ao longo da coleção de documentos.

A fórmula a seguir é conhecida como TfIDF ( (Salton et al ., 1988); (BaezaYates et al ., 1999)), onde o peso calculado (Equação 1 ), para um termo sobre um , documento é dado por:

(Equação 1) , ,

28

,onde:

representa a ocorrência normalizada do termo no documento , , calculado pela equação:

, , ,

,onde

representa a frequência que o termo é mencionado em ; , , calcula o máximo sobre , todos os termos que são mencionados no texto do documento .

representa a frequência inversa do termo ao longo de todos os documentos do Corpus, sendo calculado pela equação:

log , onde

é o número total de documentos no Corpus; é o número de documentos em que o termo aparece.

Assim sendo, os melhores termos são aqueles que ocorrem especificamente em certos documentos individualmente, capazes de serem distinguidos do restante da coleção de textos. Outra maneira é dizer que tais termos possuem alta frequência, porém baixa frequência global. Este método tornouse muito popular por apresentar bons resultados e, principalmente, pelo seu baixo custo computacional (Konchady, 2006).

A Tabela 1 resume a variação da medida calculada por TfIDF ao longo de um Corpus.

29

medida TfIDF ocorrências de um termo observação

máxima muitas vezes em um número pequeno relevância alta para estes de documentos. poucos documentos. média poucas vezes em um documento e muitas vezes em muitos documentos. mínima muitas vezes em todos os pode ter relevância para um documentos. termo considerado como essencial.

Tabela 1 – Relação TfIDF e Ocorrência de um Termo em um Corpus

3.3.2 da Distribuição de Termos Segundo Manu Konchady, Leis de Potências ( Power Law) descrevem com sucesso a distribuição de eventos em Mineração de Textos, indo além do que simplesmente um modelo apropriado ao fenômeno. Konchady cita que “muitos dados (termos) são raros e que apenas com uma quantidade razoável destes seria possível obter uma boa acurácia ao modelar tais eventos. (...) métodos baseados na frequência poderiam ser refinados em suas interpretações se soubermos suas respectivas distribuições através de Leis de Potências” (Konchady, 2006). George Kingsley Zipf propôs várias leis empíricas para ilustrar o Princípio do Menor Esforço que exibe uma distribuição de Lei de Potências, onde poucos eventos ocorrem frequentemente e muitos eventos ocorrem com pouca frequência. Ou seja, usamos poucas palavras com muita frequência em nossa escrita, enquanto raramente usamos outras (Zipf, 1949). Assim sendo, é possível estabelecer uma relação entre o ranking em uma distribuição de termos de um texto e suas respectivas frequências. Com pequenas correções nas extremidades dos valores obtidos é possível se obter uma relação quase linear entre ranking e frequência.

Observamos um exemplo 21 na Figura 8, onde 3 (três) livros (Bíblia, Alice no País das Maravilhas e Tale of Two Cities ) foram analisados, em um gráfico de escala logarítmica, baseados no princípio de Zipf.

21 Apresentamos tal gráfico para servir de referência para os resultados alcançados nesta dissertação.

30

Figura 8 – Distribuição de termos segundo a Lei de Zipf. Exemplo de 3 livros: A Bíblia, Alice no País das Maravilhas e Tale of Two Cities . (extraído de (Konchady, 2006) )

Segundo Konchady, sob trabalho de Pierce (Pierce, 1980), para observarmos a Lei de Zipf são necessários textos contendo cerca de 120.000 (cento e vinte mil) palavras. Tal estimativa será confrontada com os resultados obtidos nesta dissertação.

3.4 das Metodologias para Construção de Ontologias Relatadas na Literatura Algumas questões cruciais surgem ao iniciarmos a construção de uma ontologia. Quais os conceitos iniciais de uma ontologia, ou seja, os conceitos mais genéricos e de nível mais alto? A ontologia conterá quantos níveis hierárquicos, ou seja, qual a sua granularidade? A ontologia parte “do nada”, ou seja, não parte de nenhuma estruturação prévia? A ontologia parte de aspectos filosóficos, psicológicos ou sociológicos (abordagem top down descendente)? A ontologia se inicia a partir de algum conhecimento já estruturado como taxonomias ou ontologias préexistentes (abordagem bottom up ascendente)? Conceitos e relações podem, ainda, ser caracterizados em termos de axiomas e restrições. Qual o grau de formalismo para este tipo de expressividade? Qual a dependência da ontologia criada em relação à ferramenta de desenvolvimento e a linguagem formal adotada?

Mais questões surgem. Qual o grau de dependência da ontologia em relação ao seu campo de aplicação (domínio)? Se dependente, terá seu campo de aplicação como ponto de partida da ontologia; se semidependente da aplicação, tendo o campo de aplicação como ponto de partida, pretenderá ser genérica ou poderá ser específica; finalmente, se independente da aplicação e/ou da utilização da ontologia, será

31 totalmente genérica. Assim sendo, qual o nível de generalização ou especialização da ontologia a ser criada?

Muitas ontologias existentes na literatura que pretendem ser universalmente aplicáveis, não as são (Cristani et al ., 2004). Ainda segundo Cristani, a aplicabilidade de ontologias pode ser fundamentada em 4 (quatro) dimensões: 1. Restritas a Domínios , possuem metodologias limitadas, pois são baseadas em características e procedimentos restritos ao domínio, logo aplicáveis a um conjunto bem definido de atividades específicas; 2. Restritas aos Tipos de Dados , algumas metodologias somente são aplicáveis a um exclusivo conhecimento corporativo; 3. Lineares , algumas metodologias não apresentam nenhum tipo de flexibilidade em seus passos de implantação; 4. Dependentes da Ferramenta de Implantação , algumas metodologias implantam a ontologia diretamente e possuem uma ferramenta como parte fundamental de suas atividades, respaldandose em algum sistema de gerenciamento de dados (Cristani et al ., 2004).

Além das questões anteriores, é sabido que uma construção manual é altamente custosa em tempo, trabalhosa e tediosa 22 (Shamsfard et al ., 2003). Por outro lado, na prática, os resultados obtidos através de uma construção automática são definitivamente desapontadores (Cristani et al ., 2004) e ainda permanecem distantes de serem alcançados, implicando assim na necessidade de uma intervenção humana em todo o processo (GomezPerez et al ., 2005).

Visando auxiliar o engenheiro de ontologias na construção de uma ontologia, principalmente na fase de aquisição de conhecimento, uma imensa área surge: a área de aprendizado de ontologias (GomezPerez et al ., 2005), com seus métodos de aquisição: métodos linguísticos, métodos estatísticos ou métodos de aprendizado de máquina. Ao longo da última década, a combinação destes métodos pretendeu responder às questões anteriores e definir o que aprender, de onde aprender e como aprender. Discussões neste nível culminaram, até mesmo, em uma “meta metodologia” de aprendizado.

Shamsfard et al . (2003) elencaram as diversas etapas metodológicas para construção de uma ontologia em termos de “dimensões”, relacionando categorias e tarefas, Figura 9, da seguinte maneira:

22 As construções semiautomáticas também possuem estas adjetivações.

32

1. elementos aprendidos (conceitos, relações, axiomas, regras, instâncias, categorias sintáticas e regras temáticas); 2. ponto inicial (conhecimento prévio e o tipo de linguagem dos dados de entrada); 3. préprocessamento (processamento linguístico voltado para um entendimento profundo ou processamento textual básico); 4. método de aprendizado, consistindo de: a. categoria do aprendizado (supervisionado versus nãosupervisionado, online versus offline ), b. abordagem do aprendizado (estatística versus simbólica, lógica, linguística, reconhecimento de padrão, orientada por esquemas e métodos híbridos), c. tarefa do aprendizado (classificação, agrupamento, regras de associação, formação de conceitos, população de ontologia), d. nível de automação (manual,semiautomática,colaborativa, automática), 5. resultados (ontologia versus estruturas intermediárias, características que definem a construção da ontologia como grau de abrangência, uso, propósitos, topologia e linguagem representacional);

6. métodos de avaliação (avaliação dos métodos de aprendizado ou avaliação

da ontologia criada).

Figura 9 Dimensões Envolvidas com Ontologias (extraído de Shamsfard, et al ., 2003)

33

Sucintamente, podemos dizer que tal diversidade de métodos detecta e extrai informações relevantes de textos nãoestruturados, semiestruturados ou estruturados, através de técnicas linguísticas, que podem ser associadas à abordagens estatísticas, à recuperação da informação e à mineração de textos. A análise das interações e restrições destas informações encontradas nos textos (tais como, morfológicas, sintáticas, semânticas e discursivas), fornecem os conceitos e os relacionamentos necessários para a construção de uma ontologia. GomezPerez et al . (2005) nos mostram uma série de métodos que exemplificam a diversidade mencionada, conforme a Tabela 2.

método característica principal reuso de: ferramenta associada

1. Agirre (2000) enriquecer conceitos em Wordnet sem informação ontologias existentes 2. Alfonseca e enriquecer uma ontologia Wordnet Welkin Manandhar (2002) existente com novos conceitos 3. AussenacGilles aprender conceitos e ontologia de domínio TERMINAE (2002) relações 4. Faatz e Steinmetz enriquecer uma ontologia ontologia de domínio qualquer ambiente de (2002) existente com novos ontollogia conceitos 5. Hahn (2001) aprender novos conceitos não sem informação

6. Hearst (1992) criar um tesauros e Wordnet sem informação enriquecer WordNet com novas relações léxico sintáticas 7. Hwang (1999) suprir uma taxonomia não sem informação 8. Khan e Luo aprender conceitos Wordnet sem informação (2002) 9. Kietz (2000) aprender conceitos e ontologias de domínio TextToOnto relações entre si e enriquecer uma ontologia existente 10. Missikof (2002) criar taxonomisa e unir à uma Wordnet OntoLearn ontologia existente 11. Moldovan e Girju enriquecer uma ontologia Wordnet sem informação (2000) existente 12. Roux (2000) enriquecer uma taxonomia ontologia de domínio sem informação com novos conceitos 13. Xu (2002) aprender conceitos e Wordnet sem informação relações entre si

Tabela 2 – Métodos Associados a Aprendizado de Ontologias baseado em (GomezPerez et al ., 2005)

34

A Tabela 3 apresenta as respectivas abordagens técnicas dos métodos anteriores.

abordagem padrões padrões aprendizado proximidade método estatística lingüísticos semânticos de máquina semântica observação (por)

1 tópicos 2 tópicos 3 4 5 6 7 8 agrupamentos 9 relações nãotaxonômicas 10 relações semânticas 11 12 padrões de verbos 13 mineração de textos

Tabela 3 – Métodos da Tabela Anterior e suas Respectivas Técnicas de Aprendizado de Ontologias baseado em (GomezPerez et al ., 2005)

Retornando no tempo das primeiras metodologias encontradas na literatura, verificase que algumas propostas se desenvolveram totalmente independente do uso da ontologia e pretendiam ser genéricas e independentes de uma aplicação. A metodologia da década de 1990, empregada no projeto de inteligência artificial Cyc 23 (Lenat et al ., 1990), pretendia construir uma imensa base de conhecimento de maneira a permitir que um computador “entendesse” uma enciclopédia e até mesmo jornais. Tal metodologia consistia em três fases, partindo de uma codificação de artigos pertinentes ao conhecimento almejado. Na primeira fase, um processo totalmente manual era usado para extrair um conhecimento comum e consensual, implícitos nos artigos. As duas últimas fases usavam ferramentas de processamento natural e aprendizado de máquina para aquisição de um novo conhecimento comum nos artigos.

Uschold e King (1995) apresentaram outra metodologia, onde são destacadas 4 (quatro) atividades: identificação do propósito, construção, validação e documentação. A construção de uma ontologia deveria se iniciar pela identificação de seu propósito e das necessidades para a aquisição de conhecimento. Através de um processo puramente manual, uma quantidade suficiente de informação era adquirida e

23 http://www.cyc.com/

35 codificada diretamente em uma linguagem formal. O conhecimento formalizado podia, também, ser integrado a partir de outras ontologias. Os conceitos eram identificados por 3 (três) estratégias:

 topdown , primeiramente são definidos conceitos abstratos e em seguida são acrescidos conceitos como especializações destes conceitos abstratos;

 bottomup , onde os conceitos mais específicos são generalizados em conceitos mais abstratos;

 middleout , onde primeiramente são identificados os conceitos mais importantes para serem generalizados e especializados em seguida.

Em 1999 surge outra metodologia, Methontology , criada no laboratório de Inteligência Artificial da Universidade de Madrid. A construção de uma ontologia, por esta metodologia, poderia se iniciar de três maneiras distintas: a partir do “nada”, do reuso de outras ontologias ou da reengenharia de ontologias. Tal metodologia será pormenorizada em uma seção adiante.

Em decorrência destas primeiras metodologias, a imensa maioria das metodologias para construção de ontologias subsequentes mudaram seu ponto de partida. Primeiramente passaram a propor uma identificação do escopo e o propósito da ontologia (Li et al ., 2009), tornandose assim semidependentes de uma aplicação. Outras metodologias com aspirações de serem genéricas e tendo uma aplicação com referência, podem ser encontrada nas propostas de Grüninger e Fox (1995) e na metodologia Sensus (Swartout et al ., 1997). A primeira identifica, inicialmente, um cenário que reflete um conjunto de questões em linguagem natural, consideradas questões de competência. Estas perguntas e suas respectivas respostas são utilizadas para extrair os principais conceitos e suas propriedades. Em seguida, através da Lógica de Primeira Ordem, tais conceitos juntamente com axiomas e relações são codificados formalmente. A segunda proposta, uma abordagem top down , deriva um domínio específico de ontologias de enormes abrangências. Uma vez que uma ontologia é considerada como sendo uma hierarquia estruturada de termos, tal estrutura serviria como um esqueleto de reuso, onde um conjunto de termos considerados como “sementes” são identificados nesta estrutura maior e toda a sua subhierarquia é destacada na nova ontologia. Novos conceitos são adicionados sob esta hierarquia ou, se necessários, termos de nível mais alto são acrescentados

36 manualmente em suas devidas posições. Uma das principais características desta metodologia é promover o compartilhamento de ontologias.

Finalmente, encontramos as metodologias Kactus (Bernaras et al ., 1996) e On ToKnowledge (Staab et al ., 2001) como dependentes de uma aplicação. A primeira, uma abordagem bottomup, é baseada em uma aplicação de uma base de conhecimento. No início se constrói uma base de conhecimento para uma aplicação específica. Posteriormente, ao se necessitar uma nova base de conhecimento para um domínio similar, a proposta é generalizar a primeira base de conhecimento em uma ontologia e adaptála para as duas aplicações. Quanto mais aplicações, mais geral a ontologia se torna. A segunda metodologia identifica pontos a serem alcançados por uma ferramenta de gerenciamento do conhecimento, utilizando análises de cenários. As necessidades da ontologia são capturadas e especificadas, juntamente com questões de competências e identificação de possíveis ontologias para reuso. Em seguida é gerada uma versão preliminar, sendo refinada, avaliada e testada no ambiente da aplicação (Corcho et al ., 2003).

Uma última ressalva em relação a uma premissa básica e em comum com qualquer metodologia: toda ontologia possui uma construção incremental. Este fato garante que uma ontologia não seja considerada como um conhecimento fechado em si mesmo, novos conceitos podem ser refinados de maneira taxonômica ou, principalmente, nãotaxonômica. Novamente, este conhecimento em aberto vai de encontro ao ponto em que insistimos: a força epistemológica que as ontologias podem proporcionar, com diferentes perspectivas de um mesmo domínio, abre um imenso espectro de investigações de caráter disciplinar. Ampliando para uma investigação de caráter interdisciplinar, mesclando ontologias de áreas e domínios específicos distintos, podemos ressaltar pontos de contatos epistemológicos, alcançando assim um verdadeiro espírito transdisciplinar.

3.4.1 de uma Ontologia Aplicada à Química, Methontology A proposta inicial da metodologia Methontology parte de uma crítica: especialistas de domínio e usuários finais de uma ontologia são incapazes de formalizar seus conhecimentos através de linguagens formais, codificadas por conceitos, relações, funções e axiomas (López et al ., 1999). Tais codificações tornam implícitos os modelos conceituais e somente através de uma reengenharia seria possível os explicitar. Assim sendo, muitas ontologias seguem seus próprios princípios, derivando de um módulo de aquisição de conhecimento diretamente à

37 implantação. As ausências de um guia estruturante e de métodos comuns acarretam um entrave na construção de ontologias consensuais e compartilháveis.

A metodologia Methontology também identifica o propósito e as necessidades para aquisição do conhecimento, porém expressa a ideia principal da ontologia como um conjunto de representações intermediárias que serão “traduzidas” por um mecanismo automático denominado ODE ( Ontology Design Environment) . A ontologia é gerada em um código suportado pelo ambiente de gerenciamento de ontologias denominado Ontolingua, regida com o rigor de um ciclo de vida definido e padronizado, conforme Figura 10, abordando desde requisitos de especificação até requisitos de manutenção.

Figura 10 – Ciclo de Vida proposto pela Metodologia Methontology extraído de (Lopez et al ., 1999)

O ciclo de vida proposto se inicia pela fase de Especificação, onde são definidos o objetivo, o propósito, o escopo, o nível de formalidade e os recursos de onde será extraído o conhecimento específico necessário para a construção da ontologia. No caso em questão abordado por López et al ., temos que o objetivo e o propósito se destinavam a construir uma ontologia sobre substâncias químicas, gerando informações sobre elementos químicos para o ensino, fabricação industrial, análises, etc.

Tal ontologia teria um nível semiformal de formalismo e os recursos para aquisição de conhecimento seriam entrevistas com especialistas e Handbooks de Química. Na fase de Conceituação, o conhecimento adquirido é organizado e

38 estruturado em representações externas, através de tarefas ( Figura 11 ) que resultam em diversas tabelas, refletindo uma representação intermediária que independe da linguagem formal a ser adotada para a construção da ontologia.

Figura 11 – Fase de Conceituação da Methontology

Na etapa de Aquisição de Conhecimento , que se dá ao longo do ciclo de vida, são realizados encontros preliminares com o especialista de domínio e é realizado um estudo prévio da documentação, visando minimi zar o tempo gasto junto ao especialista. Este ponto citado por López et al. é um dos pontos de interêsse esta dissertação, conforme discorrido na introdução. Nesta fase as entrevistas com especialistas são realiz adas de maneira não estruturada, visando um rascunho inicial do conhecimento a ser representado, e também de maneira estruturada, após uma análise textual informal em livros e handbooks . Padrões que seguem os formalismos são identificados e instanciados nos textos . Análises por grafos também são realizadas para busca de irregularidades.

Na etapa de Avaliação e Validação são checadas as consistências dos axiomas criados. A integração consiste em checar termos de outras ontologias que poderiam ser incluídos, desde que estas já tenham sido vali dadas e verificadas. Finalmente, a Implementação é realizada pelo ambiente computacional ODE, armazenando a ontologia em uma base de dados relacional.

39 Na Tabela 4 podemos ver exemplos de algumas das tabelas citadas anteriormente, que pretendem ser representações externas independentes de uma linguagem formal, facilitando o entendimento de um especialista.

tabela exemplo

Elemento Reatividade Classificação de Metal Conceitos SemiMetal NãoMetal Halogênio

Nome da relação: has structure Origem: Elemento Relações Cardinalidade: (0,n) Binárias Destino: Estrutura Cristalina Relação Inversa: is in element Referência: [Callity,78]

Dicionário de nome sinônimo acrônimo instâncias relações Elemento elm. Número atômico has structure Conceitos Grupo químico Densidade a 20C

Axiomas Axioma: Alta Eletronegatividade de NãoMetais Descrição: Eletronegatividade de não metais é maior que 2.1 (expressões Conceito: NãoMetal lógicas Atributos: Eletronegatividade Expressão: ã ⇒ verdadeiras) x, y N oMetalx e Eletronegatividadex, y y 2.1 Relações: Referência: [Jansen,90)

Tabela 4 – Representações Externas Independentes de Formalismo, metodologia Methontology extraído de (Lopez et al ., 1999)

3.4.2 de uma Abordagem Colaborativa para e-commerce e Ensino à Distância Outra questão frequente na literatura: a ontologia será criada por uma abordagem colaborativa? Independente de quem use a ontologia, esta se designa a formular questões, responder questões, corroborar asserções, servir de inspirações, descrever práticas e explicitar investigações na área de Gerenciamento do Conhecimento 24 . A adoção de uma determinada ontologia de domínio, mesmo por aqueles que não possuem experiência no domínio em questão, é o resultado de uma concordância de múltiplas partes (pessoas e ferramentas), que corroboram um compromisso ontológico, adotado quando da construção da ontologia.

Tal compromisso intenciona proporcionar aos usuários uma ontologia suficientemente completa, correta, clara e concisa, oriunda de uma construção e

24 Knowledge Management, KM.

40 abordagem colaborativa (Holsapple et al ., 2002). A construção, baseada em 5 (cinco) abordagens, deveria percorrer os passos da Tabela 5.

abordagem características básicas para a construção

Pontos de vista individuais sobre o domínio em questão reconhecem as devidas Inspiração necessidades. Análise e observação de casos específicos do domínio em questão. Investigação da seguinte questão: Comportamentos e processos relatados em Indução atividades de Gerenciamento do Conhecimento podem servir de base para uma ontologia? Dedução Princípios gerais do domínio específico. Identificar possíveis ontologias existentes, de modo a integrálas, eliminando Síntese características que prejudiquem o foco da ontologia. Esforço conjunto de diferentes pontos de vista e experiências de pessoas engajadas na construção da ontologia. Geralmente tendo uma ontologia básica Colaboração como âncora, após a coleta dos diversos pontos de vista. Um mecanismo de construção consensual é necessário.

Tabela 5 – Abordagem Colaborativa para Construção de Uma Ontologia baseado em (Holsapple et al ., 2002)

Prós e contras são abordados por Holsapple e Joshi. A abordagem “inspiracional” pode carecer de subsídios teóricos e ser impraticável, enquanto, por outro lado pode ser criativa e inovadora. A abordagem indutiva pode restringir a generalização e ser bastante específica. A abordagem sintética agrega as três abordagens anteriores, reutilizando alguma ontologia prévia, contudo é interpretativa em essência, dependente dos conhecimentos e habilidades dos participantes para escolha e cortes das ontologias utilizadas. A última abordagem, altamente dependente do envolvimento dos participantes, garante o compromisso da ontologia através de iterativas reduções de objeções (Holsapple et al ., 2002). Ao fim podemos salientar um aspecto bastante positivo, pois tal metodologia exige uma proveitosa vivência em processos colaborativos por parte dos participantes.

3.4.3 de uma Ontologia Aplicada à Engenharia A construção de uma ontologia ainda é um grande desafio. Se por um lado tal atividade é considerada como um ofício ou até mesmo um trabalho artesanal (López et al ., 1999) 25 , por outro lado a Engenharia exige uma investigação crítica nas metodologias de construção de ontologias, exigindo métodos sistemáticos, mais estruturados e com um amplo processo de validação (Li et al ., 2009). As atividades

25 Construção de uma ontologia para o domínio da Química, Methontology .

41 voltadas para a engenharia são altamente dependentes em acessos a documentos, por isto sistemas eletrônicos de gerenciamento de documentos e sistema de gerenciamento de produtos são largamente utilizados como sistemas de classificação e recuperação de documentos, contudo são insatisfatórios (Li et al ., 2009). O uso de ontologias no sentido de recuperar documentos de maneira contextual, pode ser uma boa estratégia para a área de Engenharia.

Algumas ontologias voltadas para a Engenharia foram desenvolvidas tendo diferentes propostas: 1.ontologias voltadas para explicitar o conhecimento genérico e abstrato das atividades relacionadas à engenharia, 2.ontologias para interoperabilidade de sistemas e, finalmente, 3.ontologias para compartilhamento e reuso.

Li et al. (2009) ressaltam algumas ontologias voltadas para a área de Engenharia:

 Brooke et al . (1995) realizaram uma ampla investigação na área de modelagem em engenharia, construindo uma ontologia de conhecimento genérico e abstrato sobre modelos físicos, pressupostos, modelos matemáticos, propriedades dos materiais e geometria;  Sim e Duffy (2003), uma ontologia estruturada a partir da literatura específica da área de planejamento, contendo descrições fundamentais das atividades de planejamento e validada durante o próprio processo de planejamento;  Grüninger e Menzel (2003) desenvolveram uma Linguagem de Especificação de Processos (PSL) visando a interoperabilidade entre sistemas industriais, compreendendo planejamento de processos, fluxos gerenciais e organização do trabalho através de conceitos fundamentais das operações fabris, criando axiomas via lógica de primeira ordem;  Kim et al. (2003) criaram uma ontologia de componentes sobre motores e bombas para reuso e compartilhamento;  Witherell et al. (2007) propuseram uma ontologia para reuso sobre métdos de otimização, incorporando terminologias padronizadas para otimização, modelos de desenvolvimento e definições formais.

42

De maneira crítica, segundo Li et al. (2009), tais ontologias não realizaram esforços para sistematizar o conhecimento estabelecido e, principalmente, não criaram uma ponte ou mecanismo que pudesse associar um conhecimento léxico entre as representações baseadas em conceitos das ontologias e as representações baseadas em palavras utilizadas pelos buscadores de documentos.

A seguir percorremos algumas metodologias da área de Engenharia, por julgarmos serem subsidiárias de elementos essenciais para a metodologia adotada para esta dissertação e para trabalhos futuros decorrente dos resultados encontrados.

3.4.3.1 da Metodologia Implementada pelo Consórcio e-Cognos Em uma abordagem para a área de engenharia, encontramos a mesma observação comum com relação às metodologias existentes. A coexistência de inúmeras metodologias sugere que ainda é difícil identificar uma metodologia consensual para a construção de uma ontologia. A falta de maturidade nesta área, o uso de uma metodologia capaz de se adaptar a diversas aplicações em diferentes domínios e a não consideração de uma construção colaborativa e distribuída, são causas deste não consenso (Rezgui, 2007). Uma via adotada para a engenharia é a metodologia proposta pelo consórcio eCognos 26 . Nesta, a existência de uma espinha dorsal subsidiada por taxonomias técnicas e padronizadas (previamente classificadas para usos industriais) e enriquecidas por conceitos extraídos de documentos específicos do domínio em questão, através de técnicas de Recuperação da Informação, são as sementes para a construção de uma ontologia (Rezgui, 2007).

Na fase de construção ressaltase a utilização de dicionários, tesauros e base de dados léxicas e semânticas, como WordNet 27 .

Rezgui descreve a metodologia em 4 (quatro) fases, baseada em textos específicos (Figura 12), e em uma infraestrutura consistente e colaborativa para gerenciamento do conhecimento. Tal metodologia tem como principal foco a interoperabilidade entre aplicações, requerendo assim a construção de um esqueleto básico de conceitos abstratos e genéricos, que permitam servir de estrutura essencial para outros modelos no mesmo domínio. Em seguida, especializações dos conceitos especificados no esqueleto básico, estendem a nova ontologia.

26 Consórcio europeu criado para desenvolvido de ferramentas para gestão do conhecimento. 27 Banco de Dados léxico, em inglês, distribuído pela Universidade de Princeton, Estados Unidos.

43

Figura 12 – Estágios da Metodologia eCognos para Construção de Ontologias de Domínio extraído de (Rezgui, 2007)

Na primeira fase, fase 1, o escopo do domínio e a arquitetura do esqueleto básico modular são definidos. Nesta fase ressaltase a necessidade de sustentação de todo um ciclo de vida acerca das informações primordiais através de um amplo ambiente colaborativo entre vários atores. A informação postada por um ator deve necessariamente permitir seu reuso por outros atores, de maneira transparente.

Na fase 2, são identificados os recursos semânticos para o domínio adotado, como dicionários, ferramentas léxicas, taxonomias, e outros, inclusive outras ontologias. Desta forma se evidencia que a ontologia não será criada “do nada”, ou seja, terá um esqueleto prévio.

Na fase 3, a ontologia é construída através de algoritmos de IR. Além das características da fase 1, tal fase deve flexibilizar a ontologia de domínio criada para que esta contenha conceitos que possam acomodar diferentes cenários e, ainda, venha a representar bem os jargões técnicos dos setores interessados.

Sobre o modelo de conhecimento formalizado através da linguagem OWL, a fase 4 e última, testa, valida e implanta ferramentas semiautomáticas para manutenção da ontologia. Uma vez que conceitos genéricos são acomodados em um “núcleo” exclusivo, a interoperabilidade se apresenta através de subontologias específicas que

44 se conectam com este núcleo através de relações do tipo generalização/especialização, ou seja, através de relações do tipo is_a .

A fase 3 da metodologia eCognos, que constrói a ontologia de fato, se baseia na técnica TfIDF (descrita na seção 3.3.1.1) para extração de conceitos. Quanto às relações, estas são classificadas em 3 (três) tipos: relação generalização/especialização (relações is_a), relação composição/agregação (ex.: uma porta é uma agregação do batente) e relação semântica (ex.: uma viga suporta uma laje). As duas últimas relações são baseadas em coocorrências de conceitos com suas respectivas proximidades nos textos. Partindo do pressuposto que termos que ocorrem na mesma sentença parecem ser mais correlacionados que os demais termos afastados, e através da técnica conhecida como ‘Metric Clusters’ (Baeza Yates, et al., 1999), gerase coeficientes de distância entre dois termos. Os respectivos fatores de correlação são calculados conforme a Equação 2:

(Equação 2) , ∑ ∑ ,

, onde

a distância entre dois termos chaves é dada pelo número de , , termos entre estes no mesmo documento. ) e representam os conjuntos de termos chaves que possuem e como suas respectivas raízes ( stems) . Ao não se considerar diferentes variações sintáticas dos conceitos ao longo do texto, Rezgui declara que a Equação 2 pode ser simplificada em:

(Equação 3) , , , onde

representa a distância mínima, em termos, do número de termos , separadores entre os termos em um documento. ,

Baseado neste fator de correlação, onde o valor 1 (um) indica forte correlação, são determinadas relações “cegas”, ou seja, relações não nomeadas. O limite de corte estabelecido para os fatores de correlação obedece à seguinte regra: somente termos que coocorrem dentro de uma mesma sentença serão considerados.

45

Finalmente, quanto à validação da ontologia na fase 4, especialistas de domínio formularam 15 (quinze) questões pertinentes à experiência cotidiana do domínio. A principal métrica adotada nesta fase se concentra no desempenho da recuperação de documentos relevantes, identificados através do uso da ontologia. Em seguida, em um processo demasiadamente moroso, os mesmos especialistas identificam manualmente os documentos relevantes às questões. Obtémse assim uma tabela comparativa baseada em medidas de abrangência ( recall) e precisão ( precision ).

Observamos nesta metodologia que a construção da ontologia não pretende se basear em uma construção automática. Os recursos semânticos utilizados são intermediados, principalmente, por um especialista de domínio e pelo engenheiro de ontologias (por vezes chamado de especialista de conhecimento). Fica claro que o especialista de domínio qualifica e identifica os conceitos e as relações extraídas pelo especialista de conhecimento em todas as fases da metodologia, além de formular questões essenciais do domínio em questão, tornandose um ator fundamental e de presença constante em todo o ciclo construtivo.

3.4.3.2 da metodologia EO, Ontologia de Engenharia A metodologia EO (Engineering Ontology ), proposta por Li et al . (2009), foi projetada no sentido de suprir algumas deficências das metodologias anteriores. Estas últimas ainda requerem um esforço tremendo e sujeitas a julgamentos subjetivos dos engenheiros de ontologias quando da aquisição e da manutenção da ontologia construída. Para os autores, poucos esforços foram dedicados no sentido de uma construção estruturada e uma validação sistemática, que permita uma boa acurácia e completude da ontologia, requisitos críticos para a área de engenharia.

Nesta ontologia, a importância de sua construção se concentra na recuperação de documentos nãoestruturados e no reuso de contextos de design em engenharia. A proposta é a criação de uma ontologia voltada para a engenharia (EO), em um ambiente computacional sistemático, juntamente com um léxico de engenharia (EL). Tal léxico serve de “ponte” de correspondência entre os conceitos da ontologia (“espaço conceitual”) e sequencias de termos em linguagem natural (“espaço de palavras”), encontradas em documentos e consultas voltadas para a área de engenharia. A intenção da metodologia é que esta seja descritiva (o que fazer) e prescritiva (como fazer), através de formalizações do conhecimento do domínio da engenharia, com o uso de um léxico e de planilhas de conhecimento préformatadas

46 para mitigar o esforço na aquisição de conhecimento . A validação é corroborada por estudos empíricos.

O esquema básico da Ontologia de Engenharia (EO), baseado em estudos cognitivos no domínio da engenharia , é estruturado conforme a Figura 13.

Figura 13 – Esquema Básico de EO extraído de (Li et al ., 2009)

Não pretendendo ser subjetiva e exclusiva a uma empresa, a metodologia da EO (Figura 14) é baseada em aquisições de conhecimento oriundas de handbooks , textos de engenharia, banco de dados em engenharia e literatura dedicada em eng enharia. Ao contemplar de maneira prioritária uma terminologia realmente dedicada à área de engenharia, pretendese evitar problemas morfológicos de um analisador léxico tão geral como Wordnet .

47

Figura 14 – Passos da Metodologia EO, extraído de (Li et al ., 2009)

O passo 1 é similar à metodologia Methontology . Primeiramente determina se o escopo. Em seguida estudos cognitivos realizados são classificados e determinam os temas que esquematizam a ontologia. As taxonomias estruturadas , resultantes dos estudos, não possuem a mesma característica que taxonomias em outras ontologias, onde relações as interligam. Ou seja, as ontologias nestes casos são meras uniões de taxonomias. No caso da EO, as inter relações são também det erminadas nesta etapa (Li et al ., 2009). A EO, nesta fase, leva em conta a importância da granularidade, pois a ontologia servirá como um mecanismo mais efetivo de busca e menos dependente de processamento em linguagem natural.

O passo 2 se caracteriza pela aquisição de conceitos, aquisição de relações e aquisição léxica. Nesta etapa o reuso de ontologias também é considerado e os verbos são elementos essencia is para a construção da taxonomia de funções. As relações entre os conc eitos funcionais e os demais conceitos são construídas de acordo com as definições da análise de verbos funcionais.

Quanto ao léxico guia , são investigadas as morfologias, os sinônimos, as abreviações e outros termos léxicos para uma especificidade em en genharia, estendendo o simples uso genérico do Wordnet .

48 O passo 3 foca no criar planilhas formais de tal modo que humanos e computadores possam compreender, aumentando a eficiência através de análises sintáticas automáticas. Exemplificando 28 o conceito arruela de pressão (Figura 15):

Figura 15 – Planilha de Classificação (esquerda) para arruela e Planilha de Relação (direita) para arruela de pressão, extraído de (Li et al ., 2009)

Os próprios autores enfatizam que tais planilhas se assemelham às “representações intermediárias” encontradas em Methontology (página 37), porém afirmam que nesta última, tais representações não são “entendíveis” automaticamente por um computador.

No passo 4, as planilhas do passo 3 são modeladas na ferramenta Protégé , formalizada no formato XML e em grafos direcionados. À época da pesquisa, a ontologia consistia em 10 taxonomias, 2889 conceitos, 14 tipos de relações, 11000 relações instanciadas e 7000 termos léxicos (Li et al ., 2009).

O passo 5 contém dois momentos distintos: a completude e a acurácia. O primeiro momento foi dividido em 2 (dois) testes distintos:

 teste 1. estudantes especialistas selecionaram termos em 1000 arquivos PDFs para comparação posterior com os conceitos definidos em EO. À época da pesquisa, 82,1% dos conceitos escolhidos foram associados à EO e 17,9% ficaram de fora devido à incompletude de EO ou EL;  teste 2. A ontologia EO foi confrontada com um sistema 29 de buscas na internet. Este sistema contem um enorme catálogo de informações voltado

28 Pedimos desculpas, mas mantivemos a planilha no idioma inglês.

49

para as comunidades técnicas, industriais e de engenharia. Apenas a taxonomia de dispositivos foi testada, considerando os termos mais genéricos e os do primeiro nível.

O segundo momento requer uma atenção maior. Quanto à acurácia, esta metodologia se baseia em ponderações das relações. Após a aquisição dos conceitos, das relações e do léxico de uma imensa coleção de recursos textuais considerada, os autores acreditam que EO refletirá bem o vocabulário e o conteúdo semântico dos textos. Consideram que um par de conceitos adjacentes da ontologia não pode ter sempre o mesmo peso relacional (igual a 1), exemplificando da seguinte maneira:

“um par de conceitos relacionados à taxonomia de dispositivos conectados pela relação is_a, deve ser mais forte do que um conceito relacionado à taxonomia de dispositivo conectado a um conceito relacionado à taxonomia de materiais, por uma relação do tipo has_material”.

A estratégia, então, é combinar a ontologia EO com um corpus empírico, ajustando os pesos das relações de conceitos adjacentes. Desta forma, o conteúdo da ontologia combinado com uma estatística do corpus escolhido, permite adaptar uma estrutura de conhecimento estático a um contexto dinâmico, prático (Li et al ., 2009).

A ponderação das relações é inspirada no método de Resnik (Resnik, 1999), o qual utiliza o conteúdo informacional (ic ) de um conceito predecessor para calcular a similaridade semântica entre um par de conceitos descendentes. Nesta técnica, o conteúdo informacional carregado pelo conceito predecessor é calculado pela probabilidade (Equação 5) de encontrar instâncias de seus descendentes no Corpus.

A similaridade destes últimos é dada em função do compartilhamento das informações em comum, e para dois conceitos C1 e C2 é dada pela (Equação 4):

(Equação 4) , ,

29 http://www.globalspec.com/

50

, onde

log (Equação 5)

predecessor(C 1,C 2) é um conjunto de conceitos subordinados à C1 e C2,

ic é o conteúdo informacional, oriundo da Teoria da Informação. Se a probabilidade diminui, o conteúdo informacional diminui, logo quanto mais abstrato for um conceito, menor será seu conteúdo informacional (Resnik, 1999).

Li et al . (2009) sustentam que tal método funciona adequadamente para uma hierarquia de conceitos restritos a relações do tipo taxonômicas. As relações não taxonômicas, sob trabalho de (Jiang et al ., 1997), se moldam em uma extensão da técnica de Resnik, calculandor a forção de conexão (ls) das relações.

As relações taxonômicas são calculadas pela diferença do conteúdo informacional entre os nós pai e filho (Equação 6), sendo que as nãotaxonômicas seriam calculadas por um balanceamento ( relação wt ) das relações (Equação 7).

(Equação 6) , log log

, (Equação 7) çã , , log

, onde freq é o número de ocorrências dos termos no corpus e N é o número total de ocorrências de instâncias do conceito e seus descendentes no corpus.

Ressaltase assim a possibilidade de verificar a universalidade da ontologia criada, ao se aplicar diferentes Corpus empíricos oriundos de outros estudos ou base de dados.

Concluindo, tais metodologias investigadas não foram seguidas e implantadas na sua totalidade para a construção da Ontologia de Domínio Fractal, mas serviram de inspiração para a metodologia criada e adotada nesta dissertação.

51

CAPÍTULO 4. da Construção da Ontologia A construção de ontologias ainda gera bastante discussão quanto às metodologias a serem empregadas. Se de um lado tal atividade é considerada um ofício manual, quase artesanal, (López et al ., 1999), por outro, como vimos no domínio da engenharia, deve ser encarada como sistemática, estruturada e, se possível, automática. Por diversas vezes em seções anteriores, vimos que ainda não há consenso nesta área e, como vivenciamos na construção de nossa ontologia, tratase de um processo bastante moroso, com a sensação de inacabado.

Considerando a literatura descrita em seções anteriores, optaremos por uma metodologia simples e que possa servir de experiência prática e didática em termos de construção de ontologias. Portanto optamos por uma construção baseada na abordagem estatística, investigando eventos linguísticos do Corpus adotado, ao invés de uma abordagem estritamente semântica. Em linhas gerais as etapas consideradas para esta dissertação (Figura 16), distribuídas ao longo da metodologia criada a ser citada mais adiante, são constituídas de Processamento, Construção, Validação e Visualização, sendo implantadas utilizando algumas ferramentas existentes no mercado e de domínio público.

Figura 16 – Visão Geral das Etapas Implantadas

Quanto às ferramentas de domínio público, temos Text2Onto 30 (doravante T2), DoddleOWL 31 (doravante DD) e ProtégéOWL 32 , enquanto as ferramentas comerciais são PolyAnalyst™33 (doravante PA) e ThinkMap 34 .

30 Text2Onto, desenvolvido por Cimiano,P. e Voelker,J., Universidade de Karlsruhe, Alemanha

52

A ferramenta Text2Onto, utilizada nesta dissertação para extração de conceitos e relações, sucessor da ferramenta TextToOnto, combina algumas abordagens de aprendizado de máquina com técnicas básicas de processamento linguístico, baseado no ambiente de engenharia linguística GATE ( General Architecture for Text Engineering ). O processo se inicia com um processo (tokenization ) de quebra do texto em palavras, partes de frases, símbolos e outros elementos ( tokens ) ao entendimento das sentenças, analisando sintaticamente estes tokens. Em seguida, um analisador morfológico executa a lematização e a redução de palavras à sua raiz ( stemming ). O processo de aprendizado, então, se inicia baseandose em aprendizado de máquina e heurísticas linguísticas para identificação de conceitos e relações. São disponibilizadas diversas medidas de relevância aos termos, como Frequência relativa de Termos (RTF), TfIDF e Entropia. Finalmente, algoritmos exploram hiperônimos do analisador léxico WordNet, padrões de Hearst e heurísticas linguísticas para aprender relações (Park et al ., 2010). Todo o processo, supervisionado pelo engenheiro de ontologias, é um ciclo iterado gerando conceitos e relações em um ranking de acordo com a medida selecionada. Nesta dissertação escolhemos a medida TfIDF.

A ferramenta DoddleOWL, utilizada nesta dissertação para extração de conceitos, reusa ontologias existentes e suporta uma construção semiautomática de taxonomias e relações. Através do analisador léxico WordNet é possível, manualmente, evitar ambiguidades do Corpus. Por conseguinte, gera uma hierarquia de conceitos, baseados na medida TfIDF e um conjunto de pares de conceitos a serem refinados em possíveis relações (Park et al ., 2010).

A ferramenta PolyAnalyst ™, utilizada nesta dissertação para extração de conceitos, relações e aplicação da técnica de Link Analysis , combina abordagens estatísticas e aprendizado de máquina para análise de textos. Possibilita a criação de dicionários exclusivos (criando hipônimos, hiperônimos, sinônimos, etc.) juntamente com o analisador léxico WordNet . Embora sua análise automática não explicite suas técnicas de medidas e algoritmos de modelagem, tratase de uma ferramenta bastante flexível na entrada, na manipulação e na saída de dados textuais.

31 Doddle, desenvolvido por Morita,T., Yamaguchi, T., et al., Universidade de Keio, Japão 32 Protégé, desenvolvido por desenvolvido por Stanford Center for Biomedical Informatics Research (Estados Unidos ), Universidade de Stanford (Estados Unidos) e Universidade de Manchester (Reino Unido) 33 PolyAnalyst Data Analysis, Megaputer Intelligence, Inc. (http://www.megaputer.com) 34 Thinkmap Visualize Complex Information, Thinkmap, Inc. (http://www.thinkmap.com)

53

A ferramenta Protégé OWL foi utilizada nesta dissertação para construir a Ontologia de Domínio Fractal, gerando axiomas restritivos através da Lógica de Primeira Ordem. Ao final f oi gerada uma versão da ontologia formalizada na linguagem OWL. Finalmente, a ferramenta ThinkMap foi utilizada nesta dissertação para visualizar os conceitos e suas respectivas relações em uma ferramenta de buscas contextuais para a Web , possibilitando ai nda a recuperação de documentos relevantes.

4.1 da Metodologia Empregada nesta Dissertação As metodologias citadas na seção 3.4 serviram de inspiração para a proposta de uma metodologia a ser seguida para a criação da Ontologia de Domínio F ractal. Algumas técnicas, como Link Analysis, não mencionadas na referida seção foram utilizadas, objetivando a nalisar sua aplicabilidade à construções de ontologias . A metodologia proposta para esta dissertação , Figura 17 , é composta de 6 (seis) fases descritas a seguir.

Figura 17 – Metodologia Proposta e Implantada

54 4.1.1 da Metodologia Proposta: Fase 1, Especificação Primeiramente nesta fase foi definido que a ontologia a ser criada teria como objetivo a representação do conhecimento, de modo a apresentar a um neófito no tema fractal, um ponto de partida acerca do conhecimento envolvido.

Logo, a ontologia criada pretende ser genérica dentro do domínio específico e independente de qualquer aplicação. Uma busca de conceitos na ontologia deverá apresentar uma saída contextual de conceitos, ou seja, um conjunto de conceitos envolvendo o conceito buscado, explicitandoo através de suas relações taxonômicas e nãotaxonômicas. Assim, temos que tal conceito buscado não pretende somente dizer o que algo é, mas tornar claro com que conceitos este algo se mescla em um subcontexto do saber fractal.

O escopo abrange conceitos seguindo uma estratégia middleout , onde os conceitos mais importantes do Corpus seriam primeiramente identificados, para em seguida serem generalizados e especializados por conceitos elencados e/ou acrescidos pelo especialista. A base de conhecimento que forma o Corpus FRACTAL, para a obtenção dos conceitos relevantes, foi escolhida pelo especialista, sendo constituída de 9 (nove) livros clássicos no recorte matemático acerca de fractais, conforme apresentados na introdução.

Nesta fase também foram definidos 3 (três) cenários distintos para a aquisição dos conceitos da ontologia. Conforme dito na introdução, esta dissertação considerará a escassez de disponibilidade de um especialista como um fator importante da metodologia. Constatamos nas metodologias relatadas que a função do especialista de domínio é fundamental em todas as fases, porém na prática, o engenheiro de ontologias necessita de mecanismos para minimizar o tempo ofertado pelo especialista, esboçando previamente uma primeira imagem da ontologia a ser criada.

Neste sentido, a presente dissertação criou os seguintes cenários: Mineração de Textos , Especialista e Especialista Virtual , doravante denominados respectivamente por TM, ESP e EspVirt, conforme a Tabela 6.

55

características

analisa os conceitos gerados pelas técnicas de extração de termos, oriundos da Mineração de Textos, sobre o 1. cenário TM Corpus FRACTAL, formado pelos livros identificados.

o especialista seleciona conceitos gerados pelo cenário 2. cenário ESP TM e inclui novos conceitos por desejo próprio.

analisa os conceitos gerados pelas técnicas de extração de termos, oriundos da Mineração de Textos, sobre um 3. cenário EspVirt outro Corpus formado apenas pelos índices remissivos dos livros identificados.

Tabela 6 – Cenários para Aquisição de Conceitos

O cenário EspVirt foi considerado como relevante, pois acreditamos que existe um grande esforço despendido pelos autores dos livros ao criar os índices remissivos. Tais índices, investigados também sob o prisma da Mineração de Textos, selecionados pelos autores “autoridades”, permitiram uma análise quanto ao seu uso de maneira exclusiva (em detrimento do conteúdo dos livros) e também como um elemento agregador aos resultados da Mineração de Textos dos conteúdos dos livros.

Adotaremos para esta dissertação a palavra conceito 35 apenas aos termos escolhidos que integrarem a ontologia final, portanto ao nos referirmos às palavras manipuladas pelas ferramentas adotadas , usaremos a palavra termo.

Uma vez que as ferramentas adotadas retornam milhares de termos possíveis a serem identificados como conceitos à ontologia, foram definidos alguns critérios para a aquisição de termos oriundos destas ferramentas. A princípio não podemos apontar qual ferramenta é capaz de gerar ótimos termos candidatos, logo consideramos que todas as ferramentas possuiriam a mesma importância, independente de sua técnica de mensuração, e descartamos os termos que apareciam exclusivamente em uma única ferramenta.

Assim, ainda nesta fase, se estipulou que a metodologia a ser adotada para a extração de termos candidatos seria constituída de alguns critérios impostos.

35 Também denominado Classe .

56

Os critérios adotados impuseram a seguinte sequência de passos:

1. Extrair um conjunto de termos unigramas e um conjunto de termos bigramas, para cada ferramenta em separado, contendo no máximo 3.000 termos;

2. Ordenar decrescentemente os conjuntos de acordo com suas respectivas medidas, para cada ferramenta em separado, gerando conjuntos “rankeados” ;

3. Normalizar o ranking dos conjuntos gerados (transformação linear dos dados pelo método de normalização minmax (Han et al ., 2006));

4. Determinar um limite de corte para os conjuntos unigrama e bigrama, oriundo de cada ferramenta, obedecendo ao seguinte critério: selecionar todos unigramas e bigramas com ( rank > 0,95);

5. Selecionar um conjunto interseção de termos, doravante denominado conjunto “trans” , para unigramas e outro para bigramas, obedecendo ao seguinte critério: o termo deve ter sido extraído ao menos por 2 (duas) ferramentas;

6. Analisar resultados para escolhas finais.

4.1.2 da Metodologia Proposta: Fase 2, Pré-Processamento Nesta fase, foram preparadas as duas bases de textos a serem processadas: a base dos conteúdos dos livros adotados, Corpus FRACTAL, e a base dos índices dos livros adotados. Originalmente os livros encontravamse no formato PDF e foram pré processados para o formato “txt”, visando melhorar o desempenho 36 das ferramentas. O Corpus FRACTAL foi criado da seguinte maneira: cada capítulo de cada livro gerou um arquivo txt em separado, totalizando 148 documentos. O Corpus dos índices dos livros adotados, como são 9 livros, totalizou 9 documentos.

36 Não levando em conta a estratégia de cada software, a aquisição de termos para a base de livros no PA levou cerca de 5 minutos, enquanto, no T2 levou cerca de 2 dias.

57

O inconveniente de tal fase se deu exclusivamente por ter sido realizada manualmente. Uma noção de tal tarefa pode ser verificada na Figura 18. No lado esquerdo da figura, a página em questão possui fórmulas inseridas ao longo do texto e, ainda, comentários também inseridos ao longo da página, o que prejudica a continuidade das sentenças. Visando melhorar o préprocessamento, foi dedicada uma extensa carga horária para esta tarefa, de modo a maximizar a coerência 37 sintática das frases resultantes no formato “txt”, fator importante para a ferramenta Text2Onto.

Figura 18 – Exemplos de uma Página dos Livros Adotados (esquerda) e de uma Página dos Índices dos Livros Adotados (direita)

Outro alto custo de dedicação temporal ocorreu quando da criação de um “dicionário” específico sobre fractal no PA 38 , permitindo inserções de elementos morfológicos que melhoram a extração de termos. Objetivando um dicionário mais robusto, de modo a diminuir consideravelmente a ambiguidade dos termos, constatamos que necessitávamos de uma dedicação maior para esta tarefa.

37 Não plenamente alcançada. 38 Não criamos um dicionário na sua definição clássica, porém uma lista de termos envolvidos com o domínio fractal e algumas considerações morfológicas destes.

58

4.1.3 da Metodologia Proposta: Fase 3, Aquisição Nesta fase, além da aquisição dos possíveis termos para a ontologia, foram avaliados os resultados gerados pelas 3 (três) ferramentas utilizadas para esta tarefa: PolyAnalyst™, Text2Onto e Doddle.

4.1.3.1 da Metodologia Proposta: Aquisição de Termos Conforme visto na literatura, a técnica TfIDF (seção 3.3.1.1) é comumente utilizada para a extração de possíveis conceitos de uma ontologia. Uma vez que estamos procurando os conceitos que possam representar bem, como um paradigma, o domínio específico fractal, a estratégia adotada foi analisar os resultados das ferramentas T2, DD (que explicitamente utilizam esta técnica) e PA. Este último, sendo um produto comercial, não explicita as técnicas envolvidas em seus módulos e determina um valor de significância para cada termo, em seu módulo de extração de termos. Segundo seu manual, significância representa o quão distinta uma palavra chave é para todos os textos, representando uma medida como uma “média acima” do que o simples cálculo de frequência de palavras. Ainda segundo o manual, esta medida é mais útil do que a frequência, pois algumas palavras são mais freqüentes em todos os textos do que outras, mas não importantes para a análise de alguns textos.

Portanto, o passo 1 da metodologia explicitada (página 57), terá dois conjuntos de termos baseados na media TfIDF (DD e T2) e um conjunto de termos gerado pela medida significância (PA), para cada cenário.

4.1.3.2 da Metodologia Proposta: Aquisição de Possíveis Relações A obtenção de possíveis relações da ontologia se baseou em uma investigação dos resultados gerados pelas ferramentas PA e T2.

A ferramenta T2 possui um módulo para extração de relações baseado em Processamento de Linguagem Natural, retornando possíveis relações. Não pormenorizando as técnicas envolvidas, esta ferramenta tem como saída uma lista de pares de termos, nomeados por uma relação descoberta pela ferramenta, associada a um valor de relevância normalizado.

Embora a ferramenta PA não seja específica para ontologias, se optou por uma estratégia para obtenção de possíveis relações para a ontologia. A partir do ranking de unigramas e bigramas, limitados pelo corte adotado, foi criada uma taxonomia de um único nível. Tal taxonomia foi aplicada aos textos que compõem o Corpus, gerando

59 rótulos para cada um destes textos. Desta maneira, os textos foram reduzidos a rótulos e submetidos a uma análise pela técnica de Link Analysis . Segundo o manual do PA, o módulo de Link Analysis codificado nesta, resulta em uma medida calculada como o valor do logaritmo da probabilidade de uma relação entre dois termos. Ainda segundo o manual, tal codificação em um algoritmo mais eficiente que uma simples função de correlação, apresenta resultados melhores que o coeficiente de Pearson.

O coeficiente de Pearson r mede a força e a direção de uma relação linear entre duas variáveis, X e Y, incrementando ou decrementando dependendo do sinal, a partir de suas respectivas médias, (, , conforme a Equação 8 (Ahlgren, 2003).

∑ (Equação 8)

4.1.4 da Metodologia Proposta: Fase 4, Escolha de Termos e Relações Os termos adquiridos para os Corpus FRACTAL e índices dos livros, ou seja, cenários TM e EspVirt, foram analisados comparativamente antes das escolhas realizadas pelo especialista. Ao considerar os autores dos livros previamente selecionados pelo especialista como autoridades, tal análise permitiu investigar os cenários em separados e também permitiu conclusões quanto à possibilidade de agregar termos entre os dois cenários. Em seguida foi apresentado um amplo conjunto de termos ao especialista, objetivando que o mesmo elencasse os termos que poderiam ser considerados como conceitos da ontologia, sob sua perspectiva.

Coube também ao especialista acrescentar conceitos que o mesmo julgasse necessários para a compreensão do saber fractal e que não pertenciam a nenhum conjunto proveniente da Mineração de Textos.

Quanto às escolhas das relações, as saídas provenientes das ferramentas foram apresentadas ao especialista para seleção. Contudo, para o entendimento do conhecimento acerca de fractais e riqueza da ontologia final, a contribuição de relações não oriundas das ferramentas e fornecidas exclusivamente pelo especialista também foi considerada fundamental. Neste ponto acreditamos que resida a grande dificuldade na construção de ontologias, ou seja, na extração automática de relações nãotaxonômicas.

60

4.1.5 da Metodologia Proposta: Fase 5, Formalização O ambiente de ontologias ProtégéOWL, através de expressões simples da Lógica de Primeira Ordem, foi escolhido para formalização da ontologia, tendo como saída, além de grafos direcionados, uma ontologia expressa na linguagem OWL.

4.1.6 da Metodologia Proposta: Fase 6, Validação A validação da ontologia criada foi baseada em uma avaliação contextual sobre textos ( papers) , relacionados ao saber fractal, escolhidos aleatoriamente da base de artigos científicos ScienceDirect 39 . Foram selecionados 115 documentos de diversos domínios distintos, entre eles Engenharia, Geologia, Artes, Medicina, etc.

Esta fase é pormenorizada no CAPÍTULO 5.

4.2 dos Resultados do Processamento A etapa de Processamento é composta pelas tarefas de aquisição de termos e relações, prosseguindo com a tarefa de escolhas destes.

Durante a etapa de extração foram constatados alguns termos que não acrescentavam nenhum significado ao tema em questão e ao propósito da ontologia a ser criada e que poderiam ser considerados sem valor semântico ( stopWord) . Termos como verbos, termos compostos como “seguinte exemplo”, etc., foram considerados como stopWord para o nosso propósito. Esta exclusão foi aplicada para todas as ferramentas, evitando tendências.

4.2.1 da Extração e Escolha de Termos A extração dos termos candidatos a conceitos que representam o paradigma do domínio específico acerca de fractais, através dos conjuntos PA (ranking de significância), T2 (ranking de TfIDF) e DD (ranking de TfIDF), foi desmembrada em extração de unigramas e extração de bigramas para os cenários TM e EspVirt 40 .

39 http://www.sciencedirect.com/ 40 Mineração de Textos do Corpus dos livros e Mineração de Textos do Corpus dos índices dos livros.

61

4.2.1.1 da Extração de Termos Unigramas e Bigramas, cenário TM Primeiramente, consideraremos os termos unigramas. Obedecendo ao critério de linha de corte adotado (rank > 0,95), as ferramentas adotadas retornaram 865 termos candidatos a conceitos da ontologia final, conforme a Figura 19.

Figura 19 – Distribuição de Unigramas Extraídos pelo Critério (rank>0,95) (cenário TM)

Observamos que a ferramenta DD ofertou bem mais termos que as demais. Em seguida, termos foram restritos pelo critério de interseção adotado, obtendose ao final um conjunto interseção trans de 240 termos unigramas. A distribuição dos termos agrupados pelas ferramentas, nos permite ter uma noção da quantidade de termos em comum em relação ao todo (Figura 20).

Figura 20 – Distribuição de Termos Unigramas, Agrupados pelas Ferramentas (cenário TM)

62

Observase que, embora utilizem medidas distintas (significância e TfIDF), as ferramentas PA e DD obtiveram um maior número de termos em comum, de acordo com os critérios adotados.

Aos termos bigramas, obedecendo ao critério adotado de (rank > 0,95), obtemos uma nova distribuição de termos em relação a cada ferramenta, conforme a Figura 21. Observase que a coocorrência de termos, formando bigramas, tem uma distribuição mais uniforme entre as 3 (três) ferramentas, totalizando 396 termos bigramas.

Figura 21 Distribuição de Bigramas Extraídos por cada Ferramenta (cenário TM)

Novamente, efetuouse a seleção de termos que obedecem ao critério de interseção adotado, obtendose ao final um conjunto interseção trans de 100 termos bigramas candidatos a conceitos da ontologia. A distribuição dos termos agrupada pelas ferramentas, permitindo ter uma noção da quantidade de termos em comum, pode ser visualizada na Figura 22.

Figura 22 – Distribuição de Termos Bigramas, Agrupados pelas Ferramentas (cenário TM)

63

Analogamente aos unigramas, as ferramentas PA e DD apresentaram mais termos bigramas em comum, porém desta vez a ferramenta T2 não teve o mesmo bom desempenho.

4.2.1.2 da Extração de Termos Unigramas e Bigramas, cenário EspVirt Neste cenário levaremos em conta a medida de frequência , além das medidas TfIDF e significância , uma vez que o Corpus dos índices dos livros adotados não ser composto por sentenças em linguagem natural. Neste Corpus, temos apenas termos ngramas oriundos dos 9 (nove) índices dos livros adotados, inseridos nos apêndices dos livros pelos respectivos autores. Primeiramente, consideraremos os termos unigramas. Obedecendo ao critério adotado de (rank > 0,95), obtemos a distribuição de termos em relação a cada ferramenta, (Figura 23), totalizando 434 termos unigramas. Em seguida, obedecendo ao critério de interseção adotado (Figura 24), obtevese ao final um conjunto interseção trans de 126 termos unigramas.

Figura 23 – Distribuição de Unigramas por cada Ferramenta (cenário EspVirt)

Figura 24 – Distribuição de Termos Unigramas, Agrupados pelas Ferramentas (cenário EspVirt)

64

Aos termos bigramas e, também, obedecendo ao critério adotado de ( rank > 0,95), obtemos a distribuição de termos em relação a cada ferramenta, conforme a Figura 25, totalizando 563 termos bigramas. Também para bigramas, como esperado, a medida de frequência retorna um número maior de termos.

Figura 25 – Distribuição de Bigramas Extraídos por cada Ferramenta (cenário EspVirt)

Novamente, efetuouse a seleção de termos que obedecem ao critério de interseção adotado, obtendose ao final um conjunto interseção trans de 144 termos bigramas. A distribuição dos termos, que nos permite ter uma noção da quantidade de termos em comum, pode ser visualizada na Figura 26.

Figura 26 – Distribuição de Termos Bigramas, Agrupados pelas Ferramentas (cenário EspVirt)

65

4.2.1.3 da Análise Quantitativa dos Resultados da Extração de Termo s Uma vez de posse das distribuições da seção anterior, a análise das ferramentas adotada s quanto ao desempenho qua ntitativo da extração de termos, nos forneceu os resultados apresentados pela Figura 27.

Figura 27 – Análise Quantitativa da Extr ação de Unigramas e Bigramas pelas ferramentas adotadas

Observase principalmente que, para:

 unigramas , dos termos selecionados pelo critério de ranking, a ferramenta T2 teve apenas 1% e 12% do total de termos que não satisfizeram o segundo critério de pelo meno s duas ferramentas em comum, para os cenários TM e EspVirt respectivamente . Ou seja, quantitativamente quase todos os termos foram considerados candidatos a conceitos da ontologia. Numericamente, o desempenho das ferramentas PA e DD foi semelhante para os dois cenários ,

66 retornando mais termos candidatos do que termos não selecionados, embora um percentual menor do que a ferramenta T2;

 bigramas, pelos critérios adotados, neste caso constatouse o inverso em relação ao caso de unigramas. A ferramenta T2 apresentou desempenho menor do que as demais ferramentas. Observase que uma quantidade considerável de termos selecionados se assemelhou entre PA e DD. A seleção de bigramas apresentou menos resultados em comum, devido claramente às respectivas implantações técnicas. Bigramas são detectados por coocorrência dos termos envolvidos e algumas técnicas estão disponíveis para esta tarefa. Algumas ferramentas utilizam simplesmente uma medida estatística, outras utilizam a medida de Informação Mútua e outras até utilizam redes neurais. Uma vez que as medidas não são explicitadas pelas documentações das ferramentas adotadas, não nos deteremos nas metodologias destas para extração de bigramas.

Portanto, a análise quantitativa de unigramas demonstrou que todas as ferramentas ofereceram uma quantidade significativa de termos candidatos a conceitos da ontologia, sendo que a ferramenta T2 ofertou quase a totalidade dos termos retornados por esta. Quanto aos bigramas, o desempenho de PA e DD apresentaram melhores resultados. Até este momento não podemos afirmar que os termos selecionados serão, de fato, considerados conceitos à ontologia. Somente após uma análise qualitativa, realizada quando da conclusão, poderseá afirmar algo sobre o desempenho das ferramentas.

Continuando a análise quantitativa, ao analisarmos a distribuição dos termos em comum agrupados por ferramenta/medidas, foi possível avaliar a proximidade entre as ferramentas adotadas.

Esta proximidade, Figura 28 e Figura 29 para os dois cenários, nos permitirá avaliar o desempenho das ferramentas, como veremos mais adiante.

67

Figura 28 Conjunto Interseção de Unigramas e Bigramas, Agrupado por Medidas em Comum (cenário TM)

Figura 29 Conjunto Interseção de Unigramas e Bigramas, Agrupado por Medidas em Comum (cenário EspVirt)

Explorando estas distribuições, observamos que no cenário TM, para unigramas, embora utilizem medidas distintas (significância e TfIDF), as ferramentas PA e DD obtiveram um maior número de termos em comum, de acordo com os critérios. Por outro lado, como dito, a ferramenta T2 teve quase a totalidade de seus termos dentro do critério de interseção. De maneira análoga aos unigramas, as ferramentas PA e DD apresentaram mais termos bigramas em comum, porém desta vez a ferramenta T2 não teve o mesmo desempenho. Dentro dos critérios estabelecidos, observase curiosamente que, sendo ambas baseadas na medida TfIDF, as ferramentas T2 e DD possuíram pouquíssimos termos em comum, a não ser somente quando o termo era comum para as três ferramentas.

68

Quanto ao cenário EspVirt, como dito anteriormente, este possui a particularidade de apresentar um Corpus contendo apenas termos, não possuindo sentenças, daí a inclusão da medida de frequência para análises. Tal particularidade deve apresentar algum tipo de interferência nos resultados da ferramenta T2, uma vez que esta possui um apelo semântico. Aos termos unigramas, observouse que existe uma grande concentração de termos em comum entre a ferramenta PA e a medida de frequência . Ainda, para os unigramas, os blocos verdes evidenciam que enquanto alguns termos foram identificados por todas as medidas, alguns foram apenas identificados por PA e DD (o que já tinha ocorrido no cenário anterior para unigramas) e alguns apenas por DD e T2 (que utilizam a mesma técnica de medição TfIDF). Aos bigramas, a imensa maioria em comum se concentrou na ferramenta DD e na medida frequência . Em seguida ressaltase a distribuição da ferramenta PA e a medida frequência , bem como PA, DD e a medida frequência . Os demais tiveram uma distribuição bastante parecida e escassa. Novamente, vemos uma semelhança entre PA e DD (Figura 29).

Sintetizando para ambos os cenários, percebemos que pelo prisma quantitativo, existe uma semelhança grande no desempenho das ferramentas PA e DD. A princípio esta semelhança não se mostrava óbvia, visto que as técnicas empregadas pelas ferramentas DD e T2 serem a mesma, TfIDF, enquanto PA utiliza uma medida de significância. Na impossibilidade de uso da ferramenta PA, por não ser de domínio público, a ferramenta DD se apresenta como candidata. Não descartaremos a ferramenta T2 por ora, já que o desempenho para unigramas foi muito bom. A análise final será apresentada após uma análise qualitativa, onde os termos candidatos serão comparados com os termos efetivados como conceitos da Ontologia de Domínio Fractal, a ser descrita no CAPÍTULO 7 (das Conclusões).

4.2.1.4 da Escolha dos Termos Candidatos à Conceitos A análise dos resultados, para a escolha dos termos candidatos a conceitos 41 da ontologia, foi investigada de duas maneiras distintas: na ausência do especialista (cenários TM e EspVirt) e pelas escolhas de termos apresentados ao especialista (cenário ESP).

41 Também denominados Classes, para outros propósitos.

69

Na primeira maneira, foi considerado que os termos extraídos do especialista virtual possuíam alta relevância e um caráter de autoridade, uma vez que foram escolhidos para os índices dos livros pelos próprios autores. Estes termos foram comparados com os termos extraídos exclusivamente pela Mineração de Textos dos conteúdos dos livros, permitindo uma análise indicativa quanto a possibilidade de não se considerar todo o conteúdo dos livros em futuros trabalhos, mas apenas os índices dos livros.

Para efeito de avaliação, foram considerados além do conjunto trans 42 , os conjuntos retornados pelas 3 (três) ferramentas em separado. Assim, temos uma visão ampliada e refinada sobre a distância entre o conjunto de termos selecionados pelo cenário EspVirt e os demais conjuntos de termos gerados, a saber: apenas pela ferramenta PA (ranking de significância), apenas pela ferramenta DD (ranking de Tf IDF), apenas pela ferramenta T2 (ranking de TfIDF), pelo ranking de frequência e pelo conjunto trans . Tal análise também nos proporcionará uma visão de desempenho das ferramentas em separado.

Os resultados obtidos desta análise são apresentados na Tabela 7a para termos unigramas e na Tabela 7b para termos bigramas.

42 Relembrando que este conjunto é composto pelos critérios que apontam termos em comum entre as ferramentas.

70

Tabela 7 – Comparação dos Termos Extraídos dos Conteúdos dos Livros x EspVirt

71

Principalmente, constatamos o seguinte para os termos unigramas (Tabela 7a):

• 90,98% do conjunto de termos gerados pelo especialista virtual está contido no conjunto de termos extraídos pelo conteúdo dos livros adotados, utilizando apenas a ferramenta PA em ambos conjuntos; • 80,95% do conjunto de termos gerados pelo especialista virtual, através do método trans , está contido no conjunto de termos extraídos do conteúdo dos livros adotados, apenas pela ferramenta DD; • a interseção dos termos gerados pelo especialista virtual e pelo conteúdo dos livros adotados é sempre maior que os termos sugeridos exclusivamente pelo especialista virtual, com exceção da ferramenta T2.

Aproveitando estes resultados, efetuamos uma pequena digressão para falarmos sobre o uso exclusivo dos índices dos livros. Utilizando as ferramentas PA e/ou DD, foram constatados ótimos resultados “minerando” apenas os índices dos livros, ao menos para termos unigramas. A abordagem por um método trans também deu bons resultados, em torno de 70%, a favor do uso dos índices dos livros. Quando da conclusão final, retornaremos a esta discussão.

Retornando às escolhas, o critério final para a escolha de termos unigramas, com a ausência de um especialista, foi baseado levandose em conta a importância e relevância do especialista virtual como uma autoridade. Esta relevância foi utilizada de maneira agregadora, portanto objetivando uma maior qualidade da seleção. A escolha final dos termos candidatos a conceitos considerou a união entre o conjunto trans da Mineração de Textos e contribuições adicionais do especialista virtual (oriundas das análises da tabela de comparação anterior).

Portanto, temos:

1 2

,onde: {trans} – conjunto trans de unigramas; {PAEspVirt) – conjunto de interseção 90,98% entre PA e EspVir; {DDEspVirt} – conjunto de interseção 80,85% entre DD e trans EspVirt;

72

{excEspVirt1} – conjunto exclusivo de EspVirt (30,95%); {excEspVirt2} – conjunto exclusivo de EspVirt (40,31%);

Analisando os termos bigramas (Tabela 7b), ressaltase o seguinte:

 a interseção dos termos gerados pelo especialista virtual e pelo conteúdo dos livros adotados é maior que os termos sugeridos exclusivamente pelo especialista virtual apenas na ferramenta PA (utilizandoa de maneira isolada).

Observando os resultados obtidos, as implantações das técnicas para obtenção de coocorrências de termos variaram bastante entre as ferramentas (por hipóteses já mencionadas). Novamente a ferramenta PA apresentou bons resultados, indicando que sua implantação para extração de termos é bastante satisfatória, tanto para unigramas quanto para bigramas.

Assim para a escolha de termos bigramas, optamos por:

3 4

,onde: {trans} – conjunto trans de bigramas; {PAEspVirt) – conjunto de interseção 66,67% entre PA e EspVirt; {excEspVirt3} – conjunto exclusivo de EspVirt (76,39%); {excEspVirt4} – conjunto exclusivo de EspVirt (83,06%);

Portanto, considerando a ausência do especialista, o conjunto de termos unigramas escolhidos totalizou 319 termos, de maneira que foram acrescidos 79 termos oriundos dos índices dos livros adotados. O conjunto de termos bigramas escolhidos totalizou inicialmente um conjunto de 309 termos, sendo que 38 termos se repetiam da seguinte maneira: ‘fractal ’ e ‘dimension fractal’ . Logo o conjunto de termos bigramas totalizou 271 termos.

Assim sendo, o conjunto dos termos escolhidos com a ausência do especialista, totalizando 590 termos (Apêndice I), foi formado pela análise dos

73 cenários TM e EspVirt, gerando o seguinte conjunto, doravante denominado conjunto TMEspVirtual :

A segunda maneira, cenário ESP, onde o especialista escolheu termos que lhe foram apresentados, também serviu de validação do conjunto de termos escolhidos da primeira maneira, como veremos mais adiante. Neste ponto cabe uma ressalva quanto às listas de termos apresentadas ao especialista, pois talvez um número maior de apresentações venha permitir aproximações sucessivas das escolhas, levando a um maior refinamento final 43 . Isto é dito, pois ao apresentar listas de tamanhos diferentes ao especialista, quanto maior a lista, maiores foram as escolhas. Ao final se decidiu em apresentar uma única lista ao especialista, oriunda das ferramentas PA, DD e T2, onde o limite de corte foi bastante inferior ao adotado para as escolhas dos termos (0,95), ou seja, ao especialista foram apresentados 808 termos unigramas e 876 termos bigramas que tinham um limite de corte de 0,30.

Um exemplo encontrado na literatura demonstra que o limite de corte é bastante relativo. Para uma coleção de 56 documentos, 3 arquitetos escolheram 468 termos de uma lista de 480 termos, ressaltando que os 12 termos remanescentes não eram semanticamente relevantes. O limite de corte encontrado foi de 0,22 para a medida Tf IDF (Rezgui, 2007).

As escolhas do especialista, que resultaram no conjunto de termos do cenário ESP, apresentaram a seguinte distribuição:

no. de termos no. de termos no. de termos no. de termos apresentados escolhidos enviados dentro escolhidos dentro do do critério critério (rank >0,95) (rank>0,95) unigramas 808 210 240 124 bigramas 876 390 100 62

Tabela 8 – Número de Termos para Escolhas (cenário ESP)

43 Nem sempre há disponibilidade de tempo para esta estratégia.

74

Novamente, aproveitando este cenário, visaremos entender algo a mais sobre o uso de apenas os índices dos livros. Em um primeiro momento tínhamos avaliado os resultados entre os cenários TM e EspVirt (Tabela 7). Neste momento consideramos o cenário ESP, tendo o especialista como referência e autoridade final, confrontandoo com 3 (três) combinações de análises, a saber: para o conjunto combinado dos cenários TM e EspVirt (TMEspVirtual), para o conjunto exclusivo da Mineração de Textos dos conteúdos dos livros adotados (TM) e para o conjunto da Mineração de Textos do especialista virtual (índices dos livros adotados, EspVirt).

Uma vez que os termos apresentados ao especialista continham um limite de corte muito baixo, os novos resultados foram investigados de duas maneiras distintas: consideramos os termos escolhidos pelo especialista na sua totalidade e também os termos escolhidos pelo especialista que estivessem dentro dos critérios estabelecidos Tabela 8). Verificamos que o especialista selecionou 85 unigramas e 295 bigramas fora dos critérios adotados para escolhas de termos candidatos. O número alto de bigramas nos leva a crer que termos bigramas possuem relevância ao se explicitar um saber, ao menos pela ótica do especialista.

Ao considerarmos apenas os termos exclusivamente sem os critérios adotados, Figura 30 – inferior, verificamos que a abordagem TMEspVirtual selecionou mais termos em comum com o especialista do que as demais, tanto para unigramas quanto para bigramas, embora o desempenho para bigramas não tenha sido muito bom.

Analisando apenas os termos escolhidos dentro dos critérios, Figura 30 – superior, observamos que para:

 unigramas , a mineração pelo conteúdo dos livros (TM) teve 100% de aproveitamento, o mesmo percentual de nossa abordagem em unir análises de TM e EspVirt (TMEspVirtual). Ao utilizarmos apenas a mineração dos índices dos livros adotados obtivemos 48% de termos em comum, o que não consideramos tão desprezível.

 bigramas , a nossa abordagem em unir análises de TM e EspVirt (TMEspVirtual) teve o mesmo desempenho que o cenário TM. Ao utilizarmos apenas a mineração dos índices dos livros adotados obtivemos 47% de termos em comum, o que também não consideramos tão desprezível.

75

Figura 30 – Termos em Comum com Cenário ESP

Ao fim constatamos que tanto TM quanto TMEspVirtual apresentaram os mesmos resultados (100%), nos levando em um primeiro momento a apontar que a estratégia de agregar o EspVirt a TM não surtiu nenhum efeito positivo. Contudo quando observamos as escolhas do especialista sem os critérios, vemos que o cenário TMEspVirtual obteve mais termos em comum com o especialista. Tal fato é creditado à contribuição do Especialista Virtual que atendia aos critérios com sua respectiva base, mas não com a base utilizada apenas para TM.

Assim sendo, a estratégia TMEspVirtual em relação as escolhas do especialista melhorou o desempenho, pois podemos obter estes últimos termos excedentes em comum. Definimos então que o conjunto formado pelos termos escolhidos pelo especialista dentro dos critérios estabelecidos, acrescidos dos termos em comum de TMEspVirtual oriundos do especialista virtual e também escolhidos pelo especialista,

76 doravante será denominado conjunto Especialista . Ainda definimos que o conjunto interseção entre os termos escolhidos pelo especialista dentro dos critérios e o conjunto TMEspVirtual , será denominado conjunto ESP_TMEspVirtual .

Concluindo, ao utilizar os critérios restritivos adotados, observamos que o cenário EspVirt apresentou cerca de 50% das escolhas realizadas pelo especialista. Se considerarmos que toda construção de ontologias, de fato, é um processo em aberto e de contínua atualização, tal desempenho se mostra como um ponto de partida satisfatório.

De modo a tornar mais clara a nomenclatura dos conjuntos selecionados para as análises ao longo desta dissertação, os sintetizamos abaixo: conjunto TMEspVirtual conjunto formado pelos termos selecionados pela Mineração de Textos dos conteúdos dos livros acrescido de termos oriundos da Mineração de Textos dos índices dos livros. conjunto Especialista conjunto interseção entre o conjunto TMEspVirtual e o conjunto de todos os termos selecionados pelo especialista. Este conjunto evidencia as contribuições do Especialista Virtual. conjunto conjunto formato pelos termos selecionados pelo especialista ESP_TMEspVirtual e que satisfazem os critérios adotados para seleção de termos. conjunto EspVirt conjunto dos termos gerados apenas pela Mineração de Textos dos índices dos livros.

4.2.2 da Extração de Possíveis Relações Como dito anteriormente, o fornecimento de relações exclusivamente por parte do especialista e que não constam nos resultados das ferramentas utilizadas, são de extrema relevância, pois refinam a ontologia para um maior entendimento e comunicação acerca do conhecimento envolvido. Algumas relações foram geradas manualmente desta maneira, somente no ato de construção da ontologia.

77

As ferramentas T2 e PA foram escolhidas para fornecer possíveis relações que deveriam ser selecionadas pelo especialista. A primeira ferramenta, por ser baseada em técnicas de processamento linguístico e especializada em ontologias, fornece relações nominadas pela ferramenta, em concordância com o algoritmo escolhido. Os termos envolvidos nas relações identificadas pela ferramenta são ordenados por uma medida de confidência. A segunda ferramenta, por não ser voltada explicitamente para ontologias, foi adaptada para gerar possíveis relações cegas (não explicitando o nome da relação), apontando termos envolvidos em medidas de correlações geradas pela técnica de Link Analysis .

Cabe ressaltar que ao efetuar as escolhas de possíveis relações, observamos que o especialista “trabalha” não somente com uma escolha exata entre dois conceitos, mas também com uma noção próxima a que desejamos, uma noção contextual, ainda que não intencionalmente. Dizendo melhor, quando dois termos são apresentados ao especialista, em diversas ocasiões este relata que ambos “têm algum tipo de conexão” ou que ambos “indicam uma relação um pouco distante”, mas que existe uma correlação de alguma maneira. Não desconsideramos este tipo de observação para a análise dos resultados da extração automática de relações, pois em uma investigação mais detalhada e contextual em outra ocasião, é possível refinar ainda mais a ontologia.

Portanto, a ferramenta T2, em uma análise direta de seus resultados, forneceu uma lista de 825 relações possíveis. Quanto à ferramenta PA, partindo dos termos do conjunto TMEspVirtual , foi gerada uma taxonomia deste conjunto e aplicada sobre o Corpus Fractal. Ao resultado desta aplicação, foi gerado um modelo no PA que permitisse categorizar ou rotular cada documento do Corpus, reduzindo assim o tamanho dos documentos. Uma vez de posse das categorias ou rótulos para cada documento, foi realizada uma análise de Link Analysis neste Corpus modificado.

O resultado desta análise foi um conjunto de 900 correlações entre os termos do conjunto TMEspVirtual , mensuradas por uma medida de tensão. A razão de ter sido utilizado este conjunto, e não o conjunto Especialista , objetivou corroborar a metodologia anterior quanto a ausência inicial de um especialista, ou seja, um método em que possamos maximizar as informações, minimizando o esforço do especialista.

Ao apresentar as relações obtidas ao especialista para suas escolhas, obtivemos os seguintes resultados:

78

Figura 31 Relações Escolhidas pelo Especialista: T2 (esquerda) e PA (direita)

Verificamos que os resultados foram fracos. Obtevese no PA apenas 17% de relações aproveitáveis e 8% no T2 (sendo que algumas relações envolviam termos de outros domínios e não estritamente técnicos em relação ao tema fractal). Embora a ferramenta T2 seja dedicada a ontologias, verificamos que seu resultado foi inferior à técnica de Link Analysis pelo PA. As nominações das relações pelo T2 também foram questionadas pelo especialista, pois podem não traduzir realmente um conhecimento a ser inserido na ontologia final. Um pequeno recorte dos resultados de T2 é apresentado na Tabela 9.

relação termo termo

occur along aggregation boundary produce for aggregationprocess cluster make of algorithm iteration double algorithm number stop algorithm particlemovement seek algorithm probabilitydistribution reveal of analysis deny that analysis datum

Tabela 9 – Recorte dos Resultados da Ferramenta T2 para Extração de Relações

Podemos imaginar que o processo manual na etapa de PréProcessamento possa ter deixado algumas vírgulas e pontos perdidos, prejudicando o processamento em T2. Contudo este resultado foi fraco e a nomeação das relações foi considerada problemática.

A ferramenta PA é bem mais flexível do que T2, portanto foram efetuadas modificações na taxonomia que gerou as primeiras categorias ou rótulos. Foram retirados alguns termos bastante genéricos, optandose por uma taxonomia menor do que a utilizada em um primeiro momento. Novamente foi aplicado o mesmo processo

79 de geração de categorias ou rótulos e aplicada à técnica de Link Analysis . O novo resultado gerou outras 900 relações que foram apresentadas ao especialista para novas escolhas (Figura 32).

Figura 32 – Relações Escolhidas pelo Especialista: PA modificado

Verificouse que as relações escolhidas, após o refinamento da taxonomia, obtiveram um acréscimo bastante significativo. Enquanto a primeira taxonomia considerada obteve um percentual de escolha de 17%, ao refinála, considerando termos mais significativos e expressivos ao domínio fractal, obtivemos um percentual de escolha de 65%. Este último resultado foi bem melhor do que o obtido com a ferramenta T2 (8%).

Desta maneira, obtevese um conjunto de 587 relações disponíveis para aproveitamento na ontologia final. Estas relações não foram totalmente aproveitadas, porém serviram de outras análises posteriores.

Por fim, com relação às relações possíveis, foi investigada estatisticamente a recorrência de algumas relações. A mesma estratégia de geração de rótulos/classes para a técnica de Link Analysis e redução da taxonomia em questão, foi aplicada para uma combinação de alguns cenários possíveis. Consideramos as relações “cegas” geradas pelos seguintes cenários: Mineração de Textos exclusivamente, Especialista Virtual, Mineração de Textos adicionada a Especialista Virtual e escolhas exclusivas do Especialista.

A combinação destes cenários gerou 9 (nove) análises distintas para obtenção de relações.

80

Adotando uma restrição criteriosa, considerouse que as relações mais relevantes deveriam ocorrer em pelo menos 8 (oito) análises (Figura 33).

Figura 33 – Relações Mais Frequentes

Esta última distribuição nos ajuda a identificar algumas relações taxonômicas e não taxonômicas, de modo a afirmar que em qualquer ontologia de domínio acerca do saber fractal, ao menos baseada nos livros adotados nesta dissertação, deverá conter, entre outras, as seguintes relações: fractaldimensiondimension a classe dimensão possui subclasse dimensão fractal; fractalcurvedimensiond uma curva fractal possui dimensão fracionária; mandelbrotcoastline uma operação transitiva nestas relações gera a mandelbrotdimensiond inferência: uma linha de costa possui dimensão fracionária, atribuída por ; fractaldimensionpowerlaw o cálculo de uma dimensão fracionária é dado por uma lei de potência; dimensiondeuclideandimension a dimensão fracionária é disjunta a dimensão euclideana.

4.3 da Construção da Ontologia de Domínio Fractal A construção de qualquer ontologia científica é uma tarefa sempre inacabada, pois ao conhecimento lhe é fadado o avançar, o alargar. Mesmo que termos novos

81 surjam para substituir outros, estes últimos não devem ser retirados, visto que o aspecto histórico também revela outros tipos de conhecimentos.

Entendendo que a atual construção é uma experiência didática na construção de ontologias e devido ao grande número de conceitos escolhidos pelos conjuntos TMEspVirtual e ESP_TMEspVirtual, foram selecionados apenas 200 conceitos para a construção inicial. Ao decorrer da construção, visando ampliar o entendimento do saber Fractal, também foram incluídos outros conceitos e novas relações não oriundos da Mineração de Textos, porém sugeridos pelo especialista.

4.3.1 da Escolha do Primeiro Nível da Ontologia A seção 3.4, que relata sobre as metodologias para construção de ontologias, se inicia com a questão: Quais os conceitos iniciais da ontologia, ou seja, quais os conceitos mais genéricos e de nível mais alto? Neste momento nos deparamos novamente com esta questão.

Sintetizando o caminho trilhado, primeiramente definimos o propósito da Ontologia de Domínio Fractal como uma ontologia que representasse genericamente o conhecimento acerca do recorte matemático fractal e que servisse de consultas a neófitos. Em seguida, termos candidatos se tornaram conceitos da ontologia, através de uma abordagem estatística inclusa na tarefa de Mineração de Textos, em um Corpus devidamente selecionado. Optouse, em seguida, por uma estratégia middle out , onde inicialmente são identificados os conceitos mais importantes para serem generalizados e especializados. Nesta estratégia, utilizamos os conjuntos TMEspVirtual e o conjunto ESP_TMEspVirtual como guias, para serem generalizados e especializados. Finalmente, de posse dos conceitos, a ontologia foi criada manualmente, juntamente com o especialista.

No intuito de responder a questão inicial desta seção, recorremos novamente à técnica de Link Analysis. Esta técnica representa visualmente, através de grafos, padrões de correlações, onde as conexões entre os nós dos grafos são mensuradas por valores de tensão entre 0,0 e 1,0. Ao aplicarmos esta técnica aos termos dos conjuntos selecionados, consideramos os nós cujos valores de tensão não permitissem a interligação de todos os nós, ou seja, analisamos as conexões contendo as correlações mais fortes de modo a não tornar o grafo resultante em um grafo conexo. Desta maneira explicitamos algumas “ilhas” de conexões e consideramos que

82 estas manifestam um sentido contextual, ou seja, representam subcontextos dentro do saber Fractal.

A noção de contextos é fundamental para uma investigação epistemológica. ”Toda comunicação necessita de contextos, pois sem contextos não há significado. Estes contextos conferem significado devido à existência de uma classificação de contextos” (Bateson, 1979). Ainda que um determinado contexto explicitado não se encontre em algum tipo de classificação contextual prévia, ao explicitarmos a rede de relações ou conexões, novos contextos classificatórios podem surgir e, ainda, podemos inserilos em subcontextos mais genéricos.

Assim sendo, juntamente com o especialista, foram analisadas as ilhas formadas pelas correlações mais fortes, onde as tensões encontradas se situaram no intervalo de 0,46 e 1,0. Comparando os cenários com e sem especialista, constatamos ilhas contextuais que sugestionaram os conceitos do nível 1 da Ontologia de Domínio Fractal.

A título de análise, investigamos os resultados das correlações mais fortes da técnica de Link Analysis para os 4 (quatro) conjuntos selecionados nesta dissertação:

 conjunto Especialista (Figura 34);

 conjunto TMEspVirtual (Figura 35);

 conjunto ESP_TMEspVirtual (Figura 36);

 conjunto EspVirt (Figura 37).

83

Figura 34 – Link Analysis Especialista para Geração do Nível 1 da Ontologia

Figura 35 – Link Analysis TMEspVirtual para Geração do Nível 1 da Ontologia

84

Figura 36 Link Analysis ESP_TMEspVirtual para Geração do Nível 1 da Ontologia

Figura 37 Link Analysis EspVirt (exclusivamente Especial.Virtual) para Geração do Nível 1 da Ontologia

85

A investigação para sugestão dos primeiros conceitos da ontologia, através da técnica de Link Analysis , nos mostrou alguns contextos interessantes para os cenários gerados. Embora o Corpus gerado pelos índices dos livros (cenário EspVirt ) fosse constituído de termos isolados e apenas 9 documentos, observase pela Figura 37 bons contextos fractais (realçados por cores), bastante semelhantes aos identificados pelos demais cenários. Os mesmos subcontextos genéricos podem ser realçados em todos os cenários através de conceitos expressivos do saber.

Uma das relações mais fundamentais do saber fractal é a relação initiator generator , geradora dos objetos fractais mais famosos como: sierpinski gasket, , koch , etc. Esta relação aparece explicitamente nos cenários TMespVirtual e ESP_TMEspVirtual . No conjunto Especialista não a observamos, mas no cenário contendo apenas os índices dos livros, encontramos generator em uma relação coerente.

Em todos os conjuntos encontramos relações coerentes de alguns dos mais fundamentais conceitos do saber fractal. Nenhuma ontologia fractal deverá omitir termos como dimension, dimensiond, powerlaw, distribution, transformation, brownianmotion e mandelbrot. Com exceção do termo brownianmotion , que não aparece se relacionando como fundamental no conjunto Especialista , os demais cenários incluem todos os conceitos mencionados. Até mesmo a estratégia do conjunto ESP_TMEspVirtual se mostrou adequada, uma vez que o conceito brownianmotion possui correlação alta juntamente com outros conceitos fundamentais de processos randômicos.

Assim sendo, ao analisar os grafos resultantes dos conjuntos em questão, foram determinados os conceitos mais genéricos (Figura 38), nível 1, da Ontologia de Domínio Fractal. Por conseguinte foram criadas as relações taxonômicas do tipo is_a, que especializa e generaliza os conceitos dos conjuntos selecionados

A visualização, apenas ilustrativa, de todas as relações taxonômicas da Ontologia de Domínio Fractal encontrase disponível no Apêndice III.

86

MatematicalObject , contém os conceitos considerados como objetos matemáticos.

Mandelbrot, homenagem de nível superior.

MathematicalDomain , contém os conceitos relacionados aos domínios da Matemática, como Geometria.

Process , contém os conceitos relacionados com processos.

MathematicalProperty , contém os conceitos relacionados às propriedades fractais.

OtherDomains , contém alguns conceitos de

outras áreas do saber (um passo para a interdisciplinaridade).

Figura 38 – Nível 1 da Ontologia de Domínio Fractal

4.3.2 da Construção Manual no Protégé-OWL O formalismo adotado para a Ontologia de Domínio Fractal foi construído na ferramenta ProtégéOWL , onde seu ambiente permite a construção de axiomas que obedecem a Lógica de Primeira Ordem, gerando ao final uma ontologia no formato OWLDL.

Optouse, devido à enorme quantidade de conceitos e relações, pela construção de axiomas simplórios, utilizando apenas restrições através de quantificadores existenciais (Ǝ). Tal quantificador é representado na ferramenta pela palavra ‘some’ . Na Figura 39 podemos visualizar uma parte da ontologia criada (janela 1), ressaltando o conceito Generator . Na janela 2 podemos observar o uso dos quantificadores existenciais de duas maneiras. A primeira maneira ao se relacionar com o conceito Initiator através da relação hasInitiator , enquanto na segunda maneira ao herdar um axioma de sua classe pai Shape , que possuía o axioma ‘hasProperty some Symmetry’ . Em linguagem mais natural, podemos dizer que os membros da classe Generator descrevem coisas que além de possuir Initiator , possuem alguma propriedade do tipo Symmetry , e ainda são considerados como Shape . Ou seja, Generator é um Shape (relação taxonômica) que lhe é associado um Initiator (relação nãotaxonômica) e que possui algum tipo de Symmetry (relação nãotaxonômica).

Na janela 2 da mesma figura, podemos observar algumas classes que se relacionam através da relação hasInitiator .

87

Figura 39 – Exemplo de Axiomas Criados

Durante a construção da Ontologia de Domínio Fractal foram inseridos alguns conceitos não oriundos dos conjuntos extraídos através da Mineração de Textos, uma vez que o propósito geral desta ontologia é representar uma pequena parte do conhecimento fractal a neófitos. Um exemplo é constatado ao descrever algumas regras de transformações no plano ( PlaneTransformationsRule ), como RotationLowerLeftCorner , que vão aparecer em relações restritas pelo quantificador exsitencial.

A ontologia criada possui mais de 200 conceitos, mais de 20 de relações e mais de 100 axiomas. No Apêndice III, ilustrativamente, temos uma noção das relações taxonômicas da ontologia criada, quanto às relações nãotaxonômicas apresentamos na Tabela 10 algumas com seus conceitos envolvidos, exemplificandoas. Cabe ressaltar que toda ontologia encontrase sempre inacabada, pois ao criarmos axiomas mais elaborados e não simplórios, podese utilizar mecanismos automáticos de inferência, revelando novas relações, não pensadas em um primeiro momento. Ao

88 mesmo tempo, novas relações podem ser descobertas e atualizadas na ontologia criada. Conceito Origem → Conceito Destino Descrição Relação Exemplo

Set → Set isBoundaryOf Algum conjunto tem como fronteira um conjunto. JuliaSet isBoundaryOf FilledinJuliaSet FunctionRule → Function hasFunction Algum método do tipo função tem uma função de cálculo associado. BoxCountingMethod hasFunction BoxCountPowerLaw MathematicalObject → MathematicalProperty Algum objeto matemático tem uma propriedade com uma propriedade hasProperty matemática. Fractal hasProperty ScaleInvarianceProperty ShapeCoveringMethod → Cover Algum método de cobertura tem como cobertura algum objeto matemático hasCover do tipo cover . BoxCountingMethod hasCover BoxCover MathematicalObject → Dimension Algum objeto matemático tem alguma dimensão associada. hasDimension RegularSurface hasDimension EuclideanDimension ou RoughSurface hasDimension DimensionD Shape → BasicMathematicalObject Alguma forma matemática tem um objeto matemático básico como sua hasGeometryObject geometria. Tree hasGeometryObject LineSegment RuleProcess → Process hasProcess Algum tipo de método está associado a um processo. 3CopiesOfItself hasProcess IteratedFunctionSystem PlaneTransformationRule → MathematicalObject Algurma regra de transformação no plano possui uma forma matemática hasShapeInvolved associada.

Symmetry → PlaneTransformation hasTransformation Algum tipo de simetria possui uma transformação no plano. Affine hasTransformation LinearTransformation Symmetry → Distribution hasDistribution Algum tipo de simetria tem uma distribuição associada. SelfSimilarDistribution hasDistribution PowerLaw Distribution → Function isGeneralizeOf Alguma distribuição é uma generalização de uma função. NormalDistribution isGeneralizeOf GaussianFunction

Tabela 10 – Algumas Relações NãoTaxonômicas da Ontologia de Domínio Fractal

89

Ao concluirmos a construção dos axiomas necessários para as relações não taxonômicas dos conceitos da ontologia, podemos realizar buscas contextuais na ontologia criada. Imaginemos que estamos interessados em realizar uma busca do termo dimensiond (dimensão fracionária). Utilizando uma das interfaces gráficas da ferramenta ProtégéOWL (Figura 40), temos na janela principal alguns conceitos da ontologia se relacionado em relações taxonômicas e nãotaxonômicas.

Figura 40 – Exemplo de Visualização Contextual de Conceitos

As relações explicitadas nesta figura são: hasinstance (em azul), hasSubclass (equivalente a is_a, em lilás ), hasCover (em marrom claro), hasDimension (em marrom escuro), hasFunction (em cinza), hasPowerLaw (em verde) e isGeneratedBy (em amarelo).

A busca contextual de dimensionD (dimensão fracionária) na ontologia, nos informaria:

 dimensão fracionária é uma dimensão;  toda superfície irregular tem dimensão fracionária;  MassDimension, SimilarityDimension, PackingDimension, BoxCountingDimension, HausdorffBesicovitchDimension, ClusterDimension e HausdorffDimension são dimensões fracionárias;  HausdorffBesicovitchDimension e HausdorffDimension são equivalentes;

90

 dimensão fracionária pode ter valores (instâncias) entre 01, 12 e 23;  BoxCountingDimension é gerado pelo método BoxCounting ou pelo método loglogAproach;  o método BoxCounting é um método de cálculo de dimensão dito de cobertura através de retângulos, tendo uma função associada para este cálculo, que por sua vez é uma Lei de Potência que relaciona o comprimento da curva e o número de retângulos para cobertura da curva.

Ao invés de simplesmente dizermos que dimensiond é uma dimensão e que é fracionária, a busca contextual da ontologia explicita uma série de conhecimentos relacionados ao conceito dimensiond. Este é um dos objetivos de construirmos ontologias, ou seja, proporcionar um contato mais ampliado sobre um determinado assunto.

4.4 da Auto-Similaridade do Corpus Uma das principais propriedades que a fractalidade manifesta é a invariância em diferentes escalas, manifestada por uma Lei de Potência. Como vimos na seção 3.3.2, a Lei de Zipf é a Lei de Potência associada a textos, que conecta a frequência teórica de uma palavra com seu respectivo ranking, podendo ser expressa conforme a Equação 9.

(Equação 9) ,

,onde R é o número de palavras diferentes (únicas) no texto; r é a posição no ranking.

O Corpus FRACTAL considerado nesta dissertação, o todo, é composto pelos 9 (nove) livros adotados, as partes. A invariância em diferentes escalas define a auto similaridade fractal, onde as partes são autosimilares ao todo. A confirmação da auto similaridade dos 9 (nove) livros em separado, as partes, em relação ao Corpus, o todo, foi verificada pela aplicação da Lei de Zipf.

Após a etapa de PréProcessamento, obtivemos a totalização das palavras encontradas em cada um dos nove livros adotados e também do Corpus FRACTAL, conforme a Tabela 11.

91

nº total de nº total de livro palavras palavras únicas

Falconer 57.100 3.701 Feder 47.528 3.577 Gouyet 47.141 4.105 Peitgen&Jurgens&Saupe 135.261 6.291 Bassingthwaighte&Liebovitch&West 89.435 6.266 Lorenz 50.163 4.853 Mandelbrot 142.578 9.620 Schroeder 86.299 7.378 Turcotte 32.289 2.721

Tabela 11 – Total de Palavras em cada Livro Adotado

Um gráfico loglog entre a frequência teórica dada pela Lei de Zipf e as probabilidades calculadas a partir da Tabela 11, nos permite verificar se a fractalidade ocorre nos livros. Ao examinarmos os gráficos da Figura 41 constatamos que a Lei de Zipf foi observada, apesar dos livros adotados e o Corpus terem passado pela etapa de PréProcessamento. Konchady estima que para observarmos esta lei, são necessários ao menos 120.000 palavras (Konchady, 2006), porém obtivemos sucesso utilizando cerca de 40.000 palavras.

Uma vez de posse dos gráficos, consideramos os primeiros 1000 pontos de cada gráfico (antes do decaimento final) e estimamos uma equação que os aproximem de uma reta, obtendose assim a dimensão fractal de cada livro e do Corpus (Tabela 12).

livro equação R2 dimensão fractal

Falconer 0,2329 , 0,9776 1,107 Feder 0,2454 , 0,9771 1,122 Gouyet 0,1565 , 0,9835 1,026 Peitgen&Jurgens&Saupe 0,1713 , 0,9881 1,047 Bassingthwaight& Liebovitch&West 0,1712 , 0,9862 1,052 Lorenz 0,1247 , 0,9932 0,982 Mandelbrot 0,0979 , 0,9948 0,948 Schroeder 0,1226 , 0,9904 0,984 Turcotte 0,2387 , 0,9709 1,110 CORPUS 0,1110 , 0,9943 0,974

Tabela 12 – Dimensão dos Livros Adotados e do Corpus

92

Figura 41 – Lei de Zipf, Livros Adotados (a parte) e o Corpus (o todo)

93

2 Os coeficientes R encontrados para as equações consideradas do tipo (onde c é uma constante e d a dimensão), confirmaram uma boa aproximação e, por conseguinte, fractalidade forte (embora próxima da dimensão euclidiana 1,0) 44 . O valor da dimensão fractal tem sua importância para estudos comparativos de objetos similares (Eftekhari, 2006), assim constatamos que existe uma autosimilaridade entre o Corpus e suas respectivas partes, os livros adotados em separado.

A fractalidade está garantida para os livros fractais adotados.

44 Não nos aprofundaremos sobre esta constatação nesta dissertação.

94

CAPÍTULO 5. da Validação A validação pretende demonstrar quão adequados são os conjuntos de termos selecionados anteriormente, de modo a serem considerados conceitos de uma ontologia sobre fractais. Poderíamos considerar apenas o conjunto Especialista ou mesmo o conjunto ESP_TMEspVirtual , porém continuaremos nossas análises também com os conjuntos obtidos com a ausência do especialista, ou seja, TMEspVirtual e EspVirt .

Comumente a etapa de validação de ontologias tem como métrica principal o desempenho na recuperação de documentos, através das medidas de abrangência (recall ) e precisão ( precision ), ou ainda, através de questões de competência, conforme vimos na literatura relatada. Optamos por uma tentativa de validação de maneira distinta, sem um apoio teórico consistente e corroborativo. Em uma perspectiva de correlações, utilizamos uma validação contextual através da técnica de Link Analysis , analogamente ao mencionado nas escolhas dos conceitos de nível 1 da ontologia (seção 4.3.1).

A partir dos conjuntos mencionados, em separado, foi construída uma taxonomia destes. Esta taxonomia foi aplicada aos livros adotados (Corpus Fractal) e a uma base científica neutra (Corpus ScienceDirect ), composta de papers de diversas áreas científicas relacionados ao saber fractal. Os grafos resultantes foram analisados segundo visualizações orientadas contextualmente, ou seja, não levando em conta apenas a existência de conceitos expressivos do saber (representados pelos nós do grafo), mas também identificando subcontextos que nos indicam definições relevantes do saber fractal.

Exemplificando, tomemos a definição inicial do conceito fractal dada por Benoit B. Mandelbrot, em 1982, onde:

“um fractal é, por definição, um conjunto para qual a dimensão de HausdorffBesicovitch excede estritamente a dimensão topológica.”

Embora correta e precisa, esta definição se mostrava muito restritiva, excluindo alguns fractais úteis em física. Portanto, em 1986, o próprio Mandelbrot reconsidera a sua definição inicial, propondo (Feder, 1988):

95

“um fractal é algo cujo formato é construído de partes similares ao todo de alguma maneira.”

Esta nova definição continha a característica mais essencial do saber fractal: em diversas escalas, um fractal parece ser o mesmo, ou seja, um objeto fractal tem a propriedade de ser independente de escalas (Feder, 1988). Logo, nas duas definições anteriores, acrescentamse os conceitos autosimilaridade ( selfsimilarity ), dimensão fractal ( dimensiond ) e independência de escala ( scaleinvariance ou scalinglaw ), todos comprovados por uma Lei de Potência ( Power Law ). Logo, estes conceitos devem necessariamente estar presente de maneira significante e contextual em qualquer análise de textos que discorram sobre o saber fractal. A estes conceitos e definições denominaremos Validação Mandelbrot .

Portanto, compreendemos que analisar de maneira significante e contextual um grafo de correlações de conceitos, resultante de uma análise de Link Analysis , implica em uma investigação das regiões altamente concentradas dos grafos resultantes e de suas vizinhanças próximas, incluindo todo o espectro de nós. Obviamente, não identificaremos pormenores do conhecimento fractal desta maneira, mas obteremos um bom indicativo que os conceitos selecionados explicitam de maneira coerente uma pequena parte do saber em questão. Tratase de um passo inicial, que explorado em mais detalhes pode nos revelar outros pontos interessantes, daí o aplicarmos na base oriunda dos livros adotados e a uma base neutra e diversificada.

5.1 da Validação pelo Corpus Fractal Além de grafos conectados por valores de correlações (tensão), a técnica de Link Analysis da ferramenta PA, fornece como saída grafos que conectam termos por uma medida de suporte . Estes grafos apresentam as correlações de maneira quantitativa em relação ao número de documentos do Corpus.

As perspectivas dos grafos visualizados pela medida suporte, obtida pela aplicação dos conjuntos selecionados sobre o Corpus Fractal e apresentadas na Figura 42, evidenciam que tanto os conjuntos selecionados quanto o Corpus FRACTAL criado, abordam o saber fractal. Excepcionando o conjunto Especialista, todos os conjuntos apontam o conceito fractal como conceito nuclear, relacionandoo com conceitos relevantes do saber. Por outro lado, os conjuntos Especialista e EspVirt apresentam conceitos mais genéricos e que são fundamentais para a construção de

96 um ontologia, pois através de generalizações, o saber fractal é hierarquizado na ontologia final.

Figura 42 – Grafo dos Nós Mais Relevantes de Cada Conjunto Selecionado aplicado sobre o Corpus FRACTAL (medida suporte >76)

97

Passemos, então, para as perspectivas dos grafos pela medida de correlações (tensão). Estes grafos, onde conceitos se relacionam pela medida de tensão, é gerado automaticamente pela ferramenta PA. Iniciando a investigação dos conjuntos pela Validação Mandelbrot, buscamos identificar os conceitos desta validação nas regiões de alta concentração de conexões dos grafos. Ao aplicarmos o conjunto Especialista ao Corpus FRACTAL, identificamos na região de alta concentração, em destaque na Figura 43, alguns conceitos desta validação. Destacamos a presença do conceito nuclear fractal .

Figura 43 – Validação Mandelbrot, conjunto Especialista sobre Corpus FRACTAL

98

A Figura 43 apresenta todos os conceitos da Validação Mandelbrot , com exceção de topological dimension . Estendemos um pouco a região para aproximarmos uma das propriedades das leis de potência (Power Law ), ou seja, o conceito Scaling Law .

De maneira análoga, aplicamos o conjunto obtido exclusivamente pela Mineração de Textos, o conjunto TMEspVirtual , ao Corpus FRACTAL e também constatamos o conceito nuclear fractal (Figura 44). Estendendo um pouco o subcontexto destacado, constatamos todos os conceitos da Validação Mandelbrot , inclusive o conceito topological dimension.

Figura 44 Validação Mandelbrot, conjunto TMEspVirtual sobre Corpus FRACTAL

Este último conjunto analisado não considera a existência de um especialista, porém se analisarmos o grafo do conjunto ESP_TMEspVirtual , contendo o conjunto interseção dos dois conjuntos anteriores, podemos verificar todos os conceitos da Validação Mandelbrot em um subcontexto com maior proximidade que os demais (Figura 45). Relembrando, este conjunto contém os termos escolhidos pelo especialista e que estariam dentro dos critérios estabelecidos para a aquisição de

99 termos candidatos a conceitos. Apenas o conceito topological dimension encontrase um pouco afastado, porém se o considerarmos dentro do subcontexto, o resultado é muito bom.

Figura 45 Validação Mandelbrot, conjunto ESP_TMEspVirtual sobre Corpus FRACTAL

Por fim, o conjunto EspVirt gerado por Mineração de Textos exclusivamente a partir dos índices dos livros adotados, também se mostrou eficiente quanto à Validação Mandelbrot (Figura 46). Também excetuando o conceito topological dimension , apresentou todos os conceitos envolvidos. Contatase a ausência do conceito Scaling Law neste subcontexto, contudo é possível notar a existência de conexões entre Power LawLengthVariance , insinuando o conceito ausente em uma operação transitiva.

100

Surpreende esta última validação, uma vez que o Corpus dos índices dos livros possui poucos documentos e não sugere um conhecimento adequado por sentenças, já que não contém nenhuma frase e nenhuma estruturação. Este resultado demonstra que uma abordagem somente estatística, ou seja, não semântica, pode gerar bons resultados. Destacamos também a presença do conceito nuclear fractal.

Figura 46 Validação Mandelbrot, conjunto EspVirt sobre Corpus FRACTAL

O Apêndice II apresenta de maneira integral todos os grafos, pela medida de tensão, dos conjuntos selecionados. Neles realçamos alguns subcontextos ou agrupamentos do saber fractal que auxiliam o engenheiro de ontologias, juntamente com o especialista, a obter relações taxonômicas e nãotaxonômicas. Exemplificando tal auxílio com a Figura 46, podemos apontar:

relação taxonômica  dimensão fracionária ( dimensiond ) é uma ( is_a ) dimensão ( dimension);  o conjunto de cantor ( cantorset) é uma (is_a ) sequência ( ).

101

relação nãotaxonômica  toda superfície fractal ( fractalsurface ) tem dimensão (has_dimension ) fracionária ( fractaldimension ou dimensiond ).  a dimensão fracionária ( dimensiond ) é disjunta da dimensão euclidiana ( euclideandimension ).

Uma experiência foi realizada junto ao especialista, sem mencionar a este a abordagem Validação Mandelbrot . Lhe apresentamos a região de mais alta concentração do conjunto que não leva em conta as suas escolhas (Figura 47).

Figura 47 – Região de Mais Alta Concentração do Conjunto TMEsp_Virtual sobre o Corpus FRACTAL

Ao selecionar alguns conceitos da região mencionada, selecionamos os seguintes conceitos: fractal, mandelbrot, fractalgeometry, geometry, selfsimilarity, dimension, dimensiond, fractaldimensiom, fractalcurve, coastline, fractalset, topologicaldimenson e hausdorffdimension . Indagamos ao especialista, se tais conceitos podem se relacionar como um desdobramento contextual, construindo sentenças coerentes do saber fractal.

102

O professor Luiz Bevilacqua prontamente respondeu:

“Sim, são termos que podem ser acoplados apropriadamente:

 The Brazilian coastline may be associated to a random fractal geometry with dimension equal 1.312457 in agreement with Mandelbrot's assumption referring to the topological dimension of coast lines;

 The Koch curve, a , has selfsimilarity properties and may be reduced to a fractal set with a well defined ”.

Com o subcontexto apresentado e com as frases construídas pelo especialista, é possível construir um pequeno trecho de nossa ontologia acerca de fractais, incluindo relações taxonômicas e nãotaxonômicas.

Observando os grafos completos no Apêndice II, podemos ter uma visão maior de outros subcontextos do saber fractal, para todos os conjuntos selecionados. Comentando apenas os conjuntos Especialista e TMEspVirtual, observamos alguns agrupamentos assinalados nos grafos. Ao primeiro, conjunto Especialista (Apêndice II Link Analysis (a) ), identificamos os conceitos subcontextuais às Leis de Potências (powerlaw, scalinglaw, logarithm, exponent, factor ) e aos processos randômicos (brownianmotion, fractionabrownianmotion, randomwalk. randomfractal, randomprocess, probabilitydensityfunction, browniannoise, etc. ). Acima deste subcontexto, encontramos um agrupamento que realça a relação initiatorgenerator , apresentando uma série de formas e objetos fractais gerados por esta relação (peanocurve, kochcurve, cantor, cantordust, gasket, triangle, rectangle, middlethird, etc ). No canto superior direito encontramos agrupamentos referente às transformações ( affinetransformation, transformation, selfaffine ) que se relacionam coerentemente com o método de funções iterativas ( iteratedfunctionsystem ) e ainda constatamos um método de cálculo de dimensão fractal (boxcountingdimension, boxcountingmethod, boxdimension, scaleinvariance). No canto inferior, encontramos conceitos referentes aos processos caóticos ( chaos, chaoticbehavior, chaoticsystem, deterministicchaos, bifurcation, etc. ). Claramente, não se pormenoriza o todo sobre o saber fractal neste grafo, contudo os termos deste conjunto quando aplicados ao Corpus Fractal, apresentaram uma coerência com relação ao saber Fractal.

103

Ao considerarmos, com o pretexto apenas comparativo, as escolhas dos conceitos do cenário sem a presença do especialista (TMEspVirtual), ou seja, da Mineração de Textos dos livros adotados com a ajuda do especialista virtual, observamos os mesmos contextos anteriores e uma quantidade maior de conceitos coerentes. Neste caso (Apêndice II Link Analysis(b) ), o grafo resultante apresenta um outro agrupamento interessante, composto pelos conceitos setofpoint, mandelbrotset, juliaset, iteration, complexplane e iteratedfunctionsystem. Por estes conceitos se revela que a iteração de um conjunto de pontos no plano complexo gera os conjuntos de Mandelbrot e de Julia. De fato, este subcontexto circunda um conhecimento fractal.

Além da Validação Mandelbrot , observamos no canto superior os conceitos caóticos ( chaos, attractor, chaoticbehavior, nonlinear, bifurcation, lorenzattractor, sensitivedependence, etc.) Os objetos fractais são mais ricos do que o conjunto anterior como vemos no lado esquerdo da figura, como generator, initiator, triadic, staircase, triadiccantor, cantorbar, fractaldust, triadickoch, kochisland, snowflake, kochcurve, cantordust, cantor, peano, triangle, sierpinskigasket, etc.). Os conceitos dos processos randômicos também se encontram agrupados no canto inferior direito (randomprocess, whitenoise, probabilitydensity, brownianmotion, randomwalk, fractionalbrownian, randomfunction, randomfractal, etc.). Algumas dimensões também se agruparam no canto superior esquerdo, como boxcountingdimension, hausdorffdimension, packingdimension, boxdimension, fractionaldimension, massdistribution .

Evidenciamos desta maneira, através da técnica de Link Analysis , que a Mineração de Textos que produziu o conjunto de termos oriundos dos livros adotados e dos índices dos livros, apresentaram uma série de contextos que permitem identificar de maneira coerente conceitos e relações do saber fractal. Tal análise permite um refinamento por parte do especialista em um estágio bem mais avançado, minimizando o tempo necessário de entrevistas junto com o mesmo.

5.2 da Validação pelo Corpus ScienceDirect Mencionado anteriormente, o Corpus ScienceDirect é uma base neutra de documentos, escritos por vários autores distintos e de áreas díspares, como Agricultura, Neurociência, Hidrologia, Computação Gráfica, Geociências, Engenharia, etc. O intuito de aplicarmos os conceitos escolhidos para a Ontologia de Domínio Fractal nesta base, pretende identificar subcontextos do saber fractal em uma base

104 que não os originaram. Não estamos, neste momento, interessados em relações multi ou interdisciplinares, mas subcontextos exclusivos do saber fratal. Este interesse impõe que primeiramente seja verificado se a base por ela mesma, explicita ou não alguns subcontextos do saber essencialmente fractal.

Em um primeiro momento aplicamos a mesma estratégia de rotular/classificar os documentos da base ScienceDirect , para em seguida gerar uma taxonomia própria, ou seja, extraída exclusivamente dos próprios documentos do Corpus ScienceDirect e analisála pela técnica de Link Analysis . A Figura 48 apresenta o grafo resultante das conexões com os maiores valores de tensão (correlações mais fortes).

Figura 48 – Correlações Mais Fortes, Base ScienceDirect (Taxonomia Própria)

Observamos nesta figura que as correlações mais fortes, tensões no intervalo

0,56 , 1,0, possuem um forte apelo fractal. Conceitos essenciais como dimesiond, selfsimilarity, power law e estão presentes. Essencialmente destacamos nos papers um determinado assunto, uma forte relação entre o saber fractal e porosidade (pore, poresize, porosity e porosimetry ). Destacase também a técnica de regressão linear que não faz parte da Ontologia de Domínio Fractal.

Devemos ter em mente que esta base incorpora documentos de estudos práticos, ou seja, relata resultados de experiências e técnicas que se relacionam com o assunto fractal, sem a exigência de explicitar as categorias essenciais do

105 conhecimento fractal. Verificando se o grafo completo evidencia subcontextos fractais, (Apêndice II – Link Analysis(c) Erro! Fonte de referência não encontrada. ), analisa se a saída automática e completa da técnica de Link Analysis para todos os termos que compõem a taxonomia própria da base ScienceDirect. Neste grafo, as regiões centrais de alta concentração de termos e conexões mais fortes (linhas mais grossas), evidenciam a ligação entre alguns conceitos da Validação Mandelbrot e conceitos relacionados à distribuição de massa e porosidade (assunto predominante nos papers ). Uma enorme quantidade de conceitos se dispersa pela periferia do grafo. A própria Validação Mandelbrot não se apresenta completa, pois não identificamos os conceitos hausdorff dimension e topological dimension , embora outros conceitos essenciais estejam no mesmo subcontexto, como geometry, mandelbrot, dimensiond, dimension, selfsimilarity e, ainda muito próximo, power law .

Em um segundo momento, aplicamos os conjuntos selecionados por esta dissertação sobre a base ScienceDirect, visando identificar mais subcontextos essenciais do saber fractal, ou seja, além do que a própria base havia revelado.

Primeiramente, em uma perspectiva pela medida suporte (Figura 49), observamos que tanto pela taxonomia própria quanto pelos conjuntos selecionados aplicados à base ScienceDirect, é possível constatar que o saber fractal está predominantemente presente. Tendo como referência os grafos gerados pelo Corpus FRACTAL e que revelaram os conceitos importantes do saber, Figura 42, constatamos que a base SciendeDirect (Figura 49) não apresenta um dos conceitos essenciais, selfsimilarity, entre as conexões mais fortes.

Verificamos que naquela ocasião o conceito nuclear era fractal e, para esta base, constatamos um deslocamento para os conceitos e dimension , o que ainda representa bem o saber fractal. Contudo, a própria base (Figura 49a) não apresenta os conceitos dimensiond e mandelbrot 45 , porém estes ocorrem quando aplicamos os conjuntos Especialista e TMEspVirtual. Até mesmo o conjunto EspVirt os apresentou. Tal fato demonstra que, pela medida suporte, os conjuntos selecionados já apresentam conceitos importantes não vistos pela própria base ScienceDirect .

45 Neste momento temos Mandelbrot como um conceito, o que dimensiona sua grandeza como além de um mero nome próprio.

106

Figura 49 Grafo dos Nós Mais Relevantes de Cada Conjunto Selecionado aplicado sobre o Corpus ScienceDirect (medida suporte >52)

Deixando de lado a medida suporte , analisaremos os grafos de correlações, ou seja, pela medida tensão.

Aplicando o conjunto Especialista sobre o Corpus ScienceDirect e observando as correlações mais fortes (Figura 50), ainda constatamos evidências encontradas na análise da taxonomia própria do Corpus ScienceDirect (Figura 48). Porém novas propriedades surgem como selfaffine e uma menção a hausdorff dimension , além de confirmar o assunto mais geral dos papers , ou seja, assuntos relacionados à porosidade, como vemos nas conexões distributionmassporosity.

107

Figura 50 – Conjunto Especialista aplicada à base ScienceDirect

Aplicando os conjuntos TMEspVirtual (Figura 51) e EspVirt (Figura 52) sobre o Corpus ScienceDirect, também podemos observar os mesmos subcontextos que a taxonomia própria da base ScienceDirect salientou, porém outras correlações fortes ao saber fractal são reveladas. Ambos conjuntos apresentam as funções iterativas se relacionando através de transformações . As leis de potências se relacionam com conceitos mais específicos. O assunto geral dos papers também é confirmado através dos conceitos distribution e porous para o primeiro conjunto, enquanto ao segundo constatamos as conexões entre distributionporositymass .

Novamente surpreende a aplicação do conjunto EspVirt , pois o mesmo apresenta uma série de conceitos altamente relevantes ao saber fractal, através de correlações fortes ao ser aplicado a uma base neutra.

108

Figura 51 Conjunto TMEspVirtual aplicada à base ScienceDirect

Figura 52 Conjunto EspVirt aplicada à base ScienceDirect

109

Estas últimas análises se referem as correlações mais fortes, porém cabe uma análise subcontextual dos grafos completos de correlação para cada um destes conjuntos. Os grafos completos da aplicação dos conjuntos Especialista , TMEspVirtual , ESP_TMEspVirtual e EspVirt sobre a base ScienceDirect encontramse disponíveis no Apêndice II. Em todos estes grafos podemos constatar o surgimento de alguns subcontextos fractais que não se encontram visíveis no grafo da taxonomia própria da base ScienceDirect , inclusive para o conjunto EspVirt . Na Figura 53, a aplicação do conjunto TMEspVirtual revela na região central do grafo (maior concentração de conexões) todos os conceitos da Validação Mandelbrot , inclusive o conceito central dos papers da base ScienceDirect (porous ).

Figura 53 – Validação Mandelbrot, TMEsp_Virtual sobre Corpus ScienceDirect

110

Obviamente se pegarmos um dos conjuntos selecionados e aplicálo sobre qualquer base textual, não iremos encontrar contextos ou subcontextos fractais. Somente como ilustração, aplicamos tais conceitos sobre o conjunto de livros que compõem a Bíblia Sagrada. Mesmo tendo em mente que nossa abordagem é estatística, carente de apelos semânticos, comprovase a falta de coerência fractal, conforme a Figura 54 (intervalo de tensão 0,6 , 1,0).

Figura 54 Taxonomia dos Conceitos da Ontologia de Domínio Fractal aplicada à Bíblia Sagrada

Poderseia dizer que, flagrantemente, a aplicação de um de nossos conjuntos gerados sob a Bíblia Sagrada não explicitaria contextos fractais, ao menos de maneira revelada, e que apelamos para um conjunto textual distante. Portanto, por fim, vejamos ao aplicar sob um livro campeão de vendas na década de 80, Caos de James Gleick. Tal livro importante na área de jornalismo científico, escrito por um jornalista, não apresenta as mesmas estruturas utilizadas no meio científico, a princípio. Livros clássicos sobre fractais tendem a um forte academismo, enquanto papers seguem rígidas regras de estruturação e conteúdo visando suas aceitações em periódicos, jornais e portais científicos. Gleick se utiliza de metáforas e uma escrita rica e mais próxima da literatura, embora aborde com maestria o tema, uma vez que em 2008 seu livro ganhou uma edição comemorativa, comemorando mais de um milhão de exemplares vendidos.

Embora o livro Caos tenha um forte apelo aos sistemas dinâmicos tratados pelo caos, é sabido que uma abordagem sobre Mandelbrot e fractais também coexistem no livro. Ao aplicarmos o conjunto ESP_TMEspVirtual sobre os 12 capítulos

111 do livro obtivemos os grafos para análise de suporte , tensão para nível 1 de uma possível ontologia e o grafo completo de tensão.

Figura 55 – Medida Suporte sobre Caos de James Gleick

Figura 56 – Medida Tensão para Nível 1 sobre Caos de James Gleick

112

Figura 57 – Grafo Completo de Conjunto ESP_TMEspVirtual sobre Caos de James Gleick

Concluimos que talvez haja um hiato entre o comunicar científico partindo de cabeças científicas e o comunicar científico partindo de uma cabeça jornalística. Os grafos das figuras 55, 56 e 57 nos mostram que o foco jornalístico não exprime ilhas contextuais do saber fractal, embora nos aponte relações válidas e o livro apresente uma dimensão fractal em torno de 0,95 (obedecendo a Lei de Zipf para os primeiros 1000 pontos, analogamente aos cálculos da seção 4.4).

A partir de uma base científica, como os livros, é possível extrair um paradigma e seus conceitos relevantes, que ao ser aplicado em uma base científica, como os papers, foi capaz de evidenciar alguns contextos fractais. Qual a distância entre estes comunicares? A escrita científica se identifica com um pensamento científico? A escrita científica não se subjuga a uma escrita jornalística? Cabe à escrita ou ao pensamento as diferenças? Paremos neste ponto.

113

Assim sendo, consideramos que os conceitos selecionados para a ontologia final, de fato são conceitos relevantes e consensuais para o saber fractal. Categoricamente podemos afirmar que tais conceitos não esmiúçam e esgotam o saber envolvido no conhecimento acerca de fractais, porém estes conceitos devem necessariamente estar presentes em qualquer ontologia genérica sobre fractais.

114

CAPÍTULO 6. da Visualização A construção e o uso de ontologias genéricas proporcionam uma mudança no modo de buscar e visualizar um conhecimento que se queira. Ao invés de uma busca de documentos baseada apenas em palavras chaves, é possível uma busca baseada em contextos orientados por uma aproximação ontológica. Uma vez que a ontologia pode ser visualizada através de conceitos que se relacionam com outros conceitos, taxonomicamente ou não, ao se buscar um conceito específico é possível estender o foco epistemológico e explicitar ilhas contextuais, amplificando o entendimento do conceito buscado.

Uma vez de posse da Ontologia de Domínio Fractal criada, foi implantado um protótipo de buscas contextuais orientadas por aproximação ontológica, na Web , contendo os termos da Validação Mandelbrot , conforme a Figura 58.

Figura 58 – Protótipo Web de Buscas Orientadas por Ontologias

A ferramenta Thinkmap, utilizada na construção da aplicação, baseada na Teoria dos Grafos, nos permite criar a Ontologia de Domínio Fractal como um grafo

115 orientado entre os conceitos (vértices) e as relações (arestas). Na Figura 58 as relações nãotaxonômicas estão representadas por arestas verdes, enquanto as cinzas representam as relações taxonômicas. Observamos a relação nãotaxonômica isCalculatedBy entre fractal e powerlaw em evidência.

Ao clicarmos nesta última relação nãotaxonômica mencionada, a aplicação apresenta os capítulos dos livros do Corpus Fractal em que os conceitos da relação envolvida ocorrem (Figura 59), permitindo que os mesmos possam ser consultados.

Ao lado de cada capítulo do livro é possível verificar uma medida de relevância , entre 0 e 100%, que indica a medida de similaridade entre os conceitos da relação e os documentos do Corpus. Tal medida foi capturada pela ferramenta PolyAnalyst®, cujo algoritmo 46 implantado é uma modificação do bem conhecido Vector Space Model (VSM) , onde cada documento é tratado como um vetor contendo a frequência de todas as palavras neste documento, bag of words. Todos documentos, ou melhor, todos os vetores são registrados em um gráfico de duas dimensões. Os vetores próximos a um conceito no eixo Y estarão próximos ao horizonte vertical. Os vetores próximos ao conceito no eixo X estarão próximos ao horizonte horizontal. Esta área do gráfico é denominada espaço de termos. Cabe ressaltar que os conceitos da relação estarão registrados no mesmo espaço de termos que todos os documentos do Corpus. A relevância , então, é calculada como uma distancia entre os vetores dos documentos e o vetor da relação, onde os vetores dos documentos com uma distância muito pequena são considerados similares à relação. Quanto mais similar, mais relevante será o documento.

Podemos exemplificar a busca contextual da seguinte maneira: imaginemos que estejamos interessados em aprender algo sobre leis de potências (powerlaw). Sendo novatos, teríamos a tendência de buscarmos o conceito powerlaw a partir de sua relação com o conceito fractal. Imaginemos que tivéssemos restringido o número de documentos retornados pela aplicação àqueles que tivessem relevância maior ou igual a 99,5%. O especialista, de antemão, nos informou que o capítulo 2 do livro de Feder e o capítulo 4 do livro de Schroeder nos fornecem uma boa noção sobre leis de potência. Ao selecionarmos a relação fractalpowerlaw , observamos na Figura 59 que apenas 4 (quatro) capítulos foram retornados, devido a nossa forte restrição de

46 Segundo o manual da ferramenta.

116 relevância (99,5%), constando o capítulo 4 do livro de Schroeder com 100% de relevância.

Figura 59 Relação Selecionada e suas Referências no Corpus

Contudo, poderíamos estranhar, como novatos, que apenas um autor fale de um conceito tão importante. Ao olharmos contextualmente a ontologia, observamos pela Figura 58 que o conceito powerlaw se relaciona com outros dois conceitos, scalinglaw e scaleinvariance . Observamos também que o conceito scaleinvariance se relaciona através da relação hasProperty com os conceitos fractal e powerlaw . Logo ao selecionarmos a relação powerlawscaleinvariance , observamos que entre os 8 documentos retornados pela aplicação (Figura 60), os dois capitulos sugeridos pelo especialista estão presentes, com relevâncias altíssimas.

117

Figura 60 Consulta por Aproximação Ontológica

Por fim, ao mesmo critério, informamos na tabela 13, os resultados para a busca do conceito isolado powerlaw e, ainda, outras relações que permitem explicitar o cálculo de dimensão fracionária ( dimensiond ) através do conceito powerlaw.

conceito ou relação autor/capítulo relevância (%) Schroeder – capítulo 4 100 Schroeder – capítulo 5 100 powerlaw Scrhoeder – capítulo 17 99,96 Schroeder – capítulo 1 99,95 powerlaw– Feder – capítulo 2 99,99 dimensiond Liebovitch – capítulo 3 100 Schroeder – capítulo 2 100 powerlaw- Schroeder – capítulo 4 100 scalinglaw Mandelbrot – capítulo 42 99,65 Schroeder – capítulo 15 99,63 Tabela 13 – Relevância de Algumas Buscas na Ontologia

118

Evidenciase assim que além de olharmos a ontologia através de seus conceitos se relacionando em relações que explicitam algum conhecimento a partir de sua nomeação, ou seja, powerlaw hasProperty scaleinvariance , podese buscar os documentos mais relevantes de uma ilha contextual, valorando e ponderando algumas relações. Ao neófito instruído a buscar ontologicamente um conceito, lhe é permitido uma visão de conceitos que explicitam o fundo cognitivo ao invés de um foco individual, ou seja, em apenas um conceito específico. Além disto, também lhe é oferecido um ponto de partida para os estudos, a partir dos documentos apontados como relevantes contextualmente.

Ressaltamos, ainda neste momento, que na Figura 58, podemos observar alguns conceitos na coloração azul. Tais conceitos pertencem a domínios do saber distinto do recorte matemático fractal, como Biologia ( lung ) e Geologia ( earthquake ). Estes conceitos se relacionam de alguma maneira com o saber fractal e a inclusão destes permite uma visão multi ou interdisciplinar de uma ontologia. Poderíamos derivar outros saberes, a partir destes pontos de contatos específicos, tornando a ontologia com um forte viés epistemológico.

Outro tipo de visão, apenas ilustrativa, apresenta uma nuvem quantitativa em que conceitos são ressaltados, em proporção, de acordo com o número de relações taxonômicas que possuem. Esta nuvem da Ontologia de Domínio Fractal criada pode ser verificada na Figura 61.

119

Figura 61 – Visão Quantitativa em Nuvem

120

CAPÍTULO 7. das Conclusões Nesta dissertação abordamos metodologias para construção de ontologias de domínio. Por diversas vezes na literatura, abordada e descrita em seções anteriores, encontramos citações negando um consenso quanto a uma metodologia mais indicada para a construção de uma ontologia. Consideramos que os algoritmos envolvidos em uma abordagem estatística de Mineração de Textos podem gerar bons resultados e devem ser considerados como instrumentos auxiliares e subsidiários à construção de ontologias. A alta relevância de um especialista, principalmente nas fases de seleção de termos, após a aquisição destes pelos algoritmos, e de construção, nos levam a crer que uma abordagem semiautomática de construção de ontologias ainda perdurará por algum tempo.

A importância de um especialista trabalhando em conjunto com o engenheiro de ontologias tem um caráter essencial. Cabe ao especialista, visando um entendimento maior da ontologia final, rever conceitos que por ventura não foram selecionados pelos critérios, até mesmo de sua própria escolha. Podemos exemplificar com o conceito boundary . Embora o especialista não o tenha escolhido, tal conceito permite um melhor entendimento de outros conceitos da ontologia, principalmente os conceitos e , visto que optamos por uma ontologia genérica. Tal conceito consta do conjunto TMEspVirtual (Apêndice I), o que demonstra que além das escolhas do especialista, tal conjunto pode ser analisado por aproximações sucessivas, mesmo durante a revisão da ontologia construída. Inclusive, a abordagem subcontextual da etapa de validação também permite que o especialista encontre novas relações nãotaxonômicas que ocorrem nos agrupamentos identificados.

A metodologia adotada de investigar os conteúdos dos livros e os índices dos livros, elencando conceitos e possíveis relações, juntamente com a identificação de subcontextos do saber em questão, pretendeu fornecer um maior número de informações ao especialista, minimizando o tempo de entrevistas junto a este. Apontando possíveis conceitos, possíveis relações e subcontextos, o engenheiro de ontologias constrói desta maneira um arcabouço de informações que lhe permite iniciar um diálogo sobre um assunto que por muitas vezes lhe será desconhecido. Tal arcabouço servirá de inspiração quanto aos pontos de partidas para a criação da ontologia, identificação de relações, etc.

121

Ao fim, foi construída uma ontologia sobre o saber fractal, na linguagem OWL, permitindo que esta sirva como uma ferramenta de consultas sobre conceitos relevantes a um iniciado neste saber.

Algumas considerações conclusivas também podem ser apontadas, a saber:

 considerações sobre o uso de índices de livros científicos ao invés do conteúdo completo dos livros;  considerações acerca das ferramentas utilizadas.

Às considerações, relembramos a análise quantitativa empregada para a seleção de conceitos (seção 4.2.1), sintetizandoa na Tabela 14. Analisando esta tabela podemos concluir algo sobre a possibilidade de usarmos apenas os índices dos livros em detrimento de todo os conteúdos dos livros.

uso dos índices dos livros: ferramenta/cenário unigrama (%) bigrama (%) PA 91 67 em relação ao conteúdo dos T2 42 25 livros, antes da seleção de DD 74 12 termos. trans 69 23

em relação ao especialista, TMEspVirtual 100 47 após a seleção de termos TM 100 32 (dentro dos critérios). EspVirt 48 23

Tabela 14 – Considerações Finais sobre o Uso de Índices dos Livros

O uso dos índices dos livros teve uma correspondência alta quando “minerado” apenas com a ferramenta PA (91%) e um bom desempenho com a ferramenta DD (74%). Ao utilizar a estratégia trans (o comum entre pelo menos duas ferramentas), obtivemos um percentual de 69%. Podemos dizer que para unigramas, por estes resultados, poderíamos utilizar apenas os índices pela ferramenta PA e teríamos ótimos resultados. Contudo esta análise, leva em conta apenas a correspondência entre termos unigramas, não leva ainda em conta as escolhas efetuadas pelo especialista. Para termos bigramas, os resultados não são tão animadores, porém a ferramenta PA apresentou um bom resultado (67%).

122

Ao confrontarmos as escolhas do especialista para os termos dentro dos critérios adotados, ou seja, (rank>0,95) e ter sido extraído ao menos por 2 ferramentas, constatamos que o conjunto de termos escolhido pelo especialista está 100% contido no conjunto de termos extraído apenas pela Mineração de Textos do conteúdo dos livros (cenário TM). Este percentual é o mesmo ao examinarmos o cenário TMEspVirtual. Neste caso, se usássemos apenas os índices dos livros (cenário EspVirt), obteríamos um percentual de 48%. Para bigramas, os resultados foram fracos, porém a estratégia de agregar os índices dos livros ao conteúdo dos livros (TMPEspVirtual) teve um desempenho melhor (47%), ou seja, melhorou o resultado se tivéssemos utilizado apenas a Mineração de Textos dos conteúdos ou apenas o cenário dos índices dos livros.

Se olharmos apenas o percentual aproximado de 50% e 23% para unigramas e bigramas respectivamente, poderíamos dizer que este desempenho é regular ao conjunto de conceitos gerado apenas pelo especialista virtual. Contudo ao analisarmos a abordagem subcontextual, tanto para o Corpus FRACTAL quanto para o Corpus ScienceDirect , o conjunto de conceitos obtido por Mineração de Textos do especialista virtual, apresentou ótimos subcontextos para uma inspiração inicial da ontologia (nível 1), quanto na identificação de subcontextos dos grafos completos de correlações. Não devemos esquecer que tal conjunto foi obtido de um Corpus de apenas 9 documentos, o que representa um enorme ganho computacional para uma abordagem preliminar do assunto.

Quanto ao desempenho das ferramentas PolyAnalyst ®, Text2Onto e Doddle, subsidiando conceitos à construção da Ontologia de Domínio FRACTAL, efetuamos uma análise qualitativa final.

Tendo como referência o conjunto Especialista, constituído de 141 unigramas e 122 bigramas, verificamos o quanto cada ferramenta, em separado, conseguiu extrair conceitos “ditos” corretos(Tabela 15). Lembrando que estamos sob a perspectiva do especialista.

123

141 unigrama s 122 bigrama s PA DD T2 PA DD T2

apenas não selecionados 5 16 80 51 66 83 livros selecionados 136 125 61 71 56 39

apenas não selecionados 63 103 116 92 68 108 índices selecionados 78 38 25 30 54 14

livros não selecionados 3 10 70 46 28 78 + selecionados 138 131 71 76 94 44 índices

Tabela 15 – Desempenho das Ferramentas em Relação ao conjunto Especialista

Observando a Figura 62 (representação gráfica da Tabela 14) podemos concluir algo sobre o desempenho das ferramentas, como também é possível obter mais algumas informações quanto ao uso de apenas os índices dos livros.

Aos conceitos unigramas, verificamos que a ferramenta PA teve melhor desempenho em relação às demais, para os cenários em questão. No caso de abordarmos tanto os conteúdos como os índices, o conjunto Especialista esteve quase totalmente (98%) inserido no conjunto de termos que a ferramenta PA retorna. O desempenho da ferramenta DD também foi muito bom. Aos bigramas, o desempenho não é semelhante aos unigramas, porém podemos considerar que tanto PA e DD apresentaram melhores respostas.

Os resultados encontrados nos levam a considerar que a ferramenta PolyAnalyst® apresentou desempenho melhor que as demais ferramentas, além de possuir os módulos da técnica de Link Analysis e Vector Space Model . Constatamos também que a ferramenta DODDLEOWL, em diversas ocasiões, apresentou bons resultados, enquanto a ferramenta Text2Onto apresentou resultados inferiores em diversos tratamentos. Embora DODDLEOWL e Text2Onto utilizem a técnica TfIDF, a primeira ferramenta se assemelhou de maneira significativa aos resultados da ferramenta PA e não à segunda. Podemos atribuir tal resultado à etapa de pré processamento manual, em que algumas frases continham vírgulas e pontos de maneira inadequada em algumas sentenças. Contudo, a construção da Ontologia de Domínio Fractal desta dissertação adotou a abordagem estatística, não impedindo o uso do Corpus.

124

Figura 62 – Visão Gráfica do Desempenho das Ferramentas em Relação ao conjunto Especialista

Concluímos que o tratamento exclusivamente com a ferramenta PolyAnlyst® seria o mais adequado, porém se considerarmos a impossibilidade de utilizar tal ferramenta por não ser de domínio público, optaríamos pela ferramenta DODDLE OWL para extração de termos candidatos a conceitos de uma ontologia.

Finalmente, quanto aos índices, podemos dizer que pela Figura 62, os melhores resultados foram obtidos quando os resultados da Mineração de Textos dos índices dos livros foram agregados aos conteúdos dos livros adotados. Cabe ressaltar que esta agregação considera a união dos conjuntos extraídos de cada Corpus em separado.

125

CAPÍTULO 8. dos Trabalhos Futuros Diante do exposto nesta dissertação, uma ontologia pode ser construída de várias formas, contudo o engenheiro de ontologias deve ter em mente que uma ontologia necessariamente incluirá um vocabulário de termos e algumas especificações que permitam seu entendimento. Isto implica definições e indicações de como conceitos se relacionam entre si, de maneira a estruturar um domínio e restringir as possibilidades de interpretações dos termos (Uschold et al ., 1999). Tal tarefa não é fácil, pois certamente o consenso não será alcançado de maneira imediata. Capturar um conhecimento consensual de maneira genérica e formal é um ansioso obstáculo epistemológico para a comunidade de compartilhamento e reuso de aplicações. Todavia, se encararmos não como um obstáculo, mas como uma possibilidade de aproximar visões cognitivas diferentes de um mesmo domínio e de diferentes domínios do saber, acreditamos poder alcançar um entendimento maior a ser explorado em uma perspectiva transdisciplinar.

Uma vez que consigamos reunir ontologias genéricas de um mesmo saber, uma análise epistemológica permitirá constatar a existência de paradigmas ou a perpetuação de determinados contextos, por imposição dos clérigos dos saberes, nos moldes salientados por Polanyi (CAPĺTULO 2). Por outro lado se conseguirmos reunir ontologias genéricas de saberes distintos, poderseá investigar a possibilidade de criação de um índice de transdisciplinaridade, que além de revelar os pontos de contatos dos diferentes saberes, permitirá mensurar o quanto o saber de um cientista está inserido no saber de outro cientista, de modo a incentivar o juntar destes em prol do conhecimento.

A direção de uma análise epistemológica destes moldes encontra um indicativo nos atuais estudos de ontologias. Uma vez que uma imensa nova área trilha seus primeiros passos, a área de convergências de ontologias, a qual acreditamos que seus métodos possam servir para o nosso interesse futuro. Outra alternativa se concentra no uso do método de Resnik, descrito na metodologia voltada para a engenharia na seção 3.4.3.2. Este método aplicado para relações taxonômicas e o método de Resnik modificado para relações nãotaxonômicas (também descrito na literatura relatada nesta dissertação), podem servir de abordagem inicial para uma convergência pervasiva entre ontologias.

Um passo incipiente foi dado ao incluirmos na Ontologia de Domínio Fractal alguns conceitos de outras áreas do saber, identificados nos livros do tipo tecnicidade.

126

O conceito de nível 1 OtherDomains , possui conceitos relacionados ao saber fractal, oriundos de outros saberes, como Astronomia, Biologia, Geologia e Meteorologia (Figura 63).

Figura 63 Conceitos de Outros Domínios

Nestes momentos finais, voltamos à nossa questão fundamental: Como alargar o conhecimento? Em uma perspectiva transdisciplinar é a nossa opinião e, para elevar ao inteligível, propomos convergências entre ontologias na trama dos saberes, mensurando os pontos de costura.

Em ressonância ao nosso desejo, encontramos algumas palavras de Newton da Costa (1997) que mostram a necessidade de verticalização de um saber, por sua própria lógica, e por outro lado, onde saberes podem se significar mutuamente:

A lógica indutiva, basicamente, se ocupa da justificação (de proposições e de inferências). Tratase da justificação não dedutiva: cada sistema cognitivo possui uma lógica fundamental, a lógica dedutiva que lhe é inerente. Porém, ele carece de outra lógica, reguladora das inferências que ultrapassam sua lógica dedutiva, que constitui, por assim dizer, sua espinha dorsal. Deste modo, a

127 cada sistema S temse duas lógicas a ele ligadas: a primeira define o seu mecanismo dedutivo e a segunda, a sua contraparte indutiva. A metodologia geral da ciência empírica confundese com os órgãos indutivos basilares, correlacionados às variadas disciplinas fatuais. Estas, por seu turno, também dispõem de metodologias específicas, decorrentes de técnicas particulares, manipuladas e criadas por especialistas.

A teoria dos sistemas cognitivos ou conceituais encerra, pois tópicos lógicos, epistemológicos e metodológicos. A teoria da ciência, em síntese, resumese na teoria dos sistemas em apreço.

Quando se recorre ao sistema conceitual S no terreno da experiência, pressupõese que S capta traços da realidade, de certa região objetiva R. Se S não tivesse nada de estruturalmente comum com R, não seria instrumento pelo qual procuramos conhecer R. A ciência empírica busca basilarmente obter relações constantes no contorno, através de teorização, previsão e explicação. Tudo isso acarreta que o universo deve possuir características de natureza metafísica, que alicerçam a indagação cientifica. Sem postulados de índole metafísica, amplos e gerais, muitas vezes aceitos implicitamente, não há ciência.

(...) na ciência pura buscamos o conhecimento pelo conhecimento. Não estamos interessados em aplicações, em obtenção de resultados que julgamos proveitosos em algum sentido. A ciência aplicada não difere intrinsicamente da ciência pura, mas apenas em seus objetivos: nesta última, não contam primariamente as aplicações, embora na primeira estas sejam prioritárias. Nas disciplinas aplicadas, estudamos métodos, teorias, que sejam relevantes para determinadas aplicações. Assim, não há separação completa entre ciência e ciência aplicada; há, tão somente, diversidade de ênfase nos temas que investigam. Por exemplo, em um curso de matemática aplicada para o engenheiro, cultivamos assuntos como séries de Fourier, transformada de Fourier, cálculo operacional e equações a derivadas parciais, que são capítulos também da matemática pura. Esses tópicos figuram em cursos de matemática aplicada por se evidenciarem significativos para a formação do engenheiro ou do físico, entre outros especialistas. E frisemos que um tema que ocorre proeminentemente como pertencendo a uma disciplina pura muitas vezes se enquadra nesta última por motivações oriundas de suas aplicações em outra ciência pura. É o caso da teoria do potencial, capitulo da matemática pura, de enorme significação para a física e a astronomia.

128

Newton da Costa, ainda, aponta um princípio, ao colocar a pergunta (1997):

Existem princípios básicos e gerais que norteiam as ciências empíricas? (...) Princípio das categorias: a ciência se talha recorrendo a sistemas de categorias, categorias essas que não são hirtas e imutáveis, mas que vão se estabelecendo se modificando no transcurso da história da ciência. A continuidade histórica da evolução da ciência ocidental parece evidenciar que a existência de paradigmas categoriais diversos não implica necessariamente na sua incomensurabilidade.

Os princípios formulados são princípios epistemológicos. Não delimitam o esforço cientifico qual atividade fechada e bem definida. Ao contràrio, deixam patente que a ciência evolui, se produz, é obra do homem, sujeita a todas as vicissitudes das produções do mesmo. Não somente as ciências empíricas se transfiguram e progridem, como também as ciências formais.

Enfim, tal tarefa ontológica guarda um sentido de perpétua continuidade e eternidade, tal como James Gleick (1989) ao falar sobre fractais:

O conjunto de Mandelbrot é o objeto mais complicado na matemática, como gostam de dizer os seus admiradores. Uma eternidade não seria suficiente para vêlo todo, seus discos revestidos de espinhos pontudos, suas espirais e seus filamentos que se retorcem para fora e à volta, como moléculas bulbosas penduradas, numa variedade infinita, como cachos de uvas na vinha pessoal de Deus.

Se para Aristóteles, a ontologia investiga e representa a totalidade do real, e para Mandelbrot, Deus criou um mundo fractal, logo, não há distância entre a ontologia e a fractalidade. Há distâncias certamente na cognição humana e cabe somente a nós minimizálas na dimensão do saber.

129

Referências Bibliográficas

AHLGREN, P., JARVENING, B., ROUSSEAU, R. "Requirements for a Cocitaion Similarity measure, with Special Reference to Pearson's Correlation Coefficient". Journal of The American Society for Information Science and technology , 2003. BAEZAYATES, R., RIBEIRONETO, B. Modern Information Retrieval . New York: Addison Wesley, 1999. BATESON, G. Mind and Nature: A Necessary Unity . New York: Dutton, 1979. BERNARAS, A., LARESGOITI, I., CORERA, J. "Building and reusing ontologies for electrical network applications", European Conference on Artificial Intelligence (ECAI96), Budapest, 1996. BFO. Basic Formal Ontology, Basic Formal Ontology (BFO ), 2011. Disponivel em: http://www.infomis.org/bfo , Acesso em: 15 mar. 2011. BROGLIO, J. ,"Document retrieval and routing using the INQUERY system", Overview of the Third Retrieval Conference , 1995. BROOKE, D. V., PENNINGTON, A. D., BLOOR, M. S., "An ontology for engineering analysis", Engineering with Computers , 11(1), 1995. CIMIANO, P. "Ontology Learning". In: STAAB, S., STUDER, R. Handbook on Ontologies. Berlin: SpringerVerlag, 2009. CORCHO, O., FERNANDEZLOPEZ, M., GOMEZPEREZ, A., "Methodologies, tools and languages for building ontologies. Where is their meeting point?", Data & Knowledge Engineering , 2003. COSTA, N. C. A. O Conhecimento Científico . São Paulo: Discurso Editorial, 1997. CRISTANI, M., CUEL, R., "A Comprehensive Guideline for Building a Domain Ontology from Scratch". Proceedings of I-KNOW ’04 , Graz, Austria, 2004. CURRÁS, E. Ontolgías, taxonomía y tesauros . Madrid: Ediciones Trea, S.L., 2004. EFTEKHARI, A., "Fractal Geometry of Texts: An Initial Application to the Works of Shakespeare", Journal of Quantitative Linguistics , Tehran, 2006. FEDER, J. . New York: Plenum Press, 1988. FRANTZI, K., ANANIADOU, S., "The Cvalue/NCvalue domain independent method for multiword term extraction", Journal of Natural Language Processing , 1999. GLEICK, J. Caos - A Criação de Uma Nova Ciência . Editora Campus, 1989. GOMEZPEREZ, A., MANZANOMACHO, D., "An overview of methods and tools for ontology learning from texts", The Knowledge Engineering Review , 19(3), 2005. GRANT, K. A., "Tacit Knowledge Revisited We Can Still Learn from Polanyi", The Electronic Journal of Knowldge Management , 5, 2007. 173180.

130

GRENON, P., SMITH, B., "SNAP and SPAN:Towards Dynamic Spatial Ontology", Sptaial Cognition and Computation , 2003. GRUBER, T. R. A, "Translation Approach to Portable Ontology Specifications", Knowledge Acquisition , 5(2), 1993. 199220. GRÜNINGER, M., FOX, M. S., "Methodology for the Design and Evaluation of Ontologies", Proc. Int'l Join Cof, AI Workshop on Basic Ontological Issues in Knowledge Sharin g, 1995. GRÜNINGER, M., MENZEL, C., "The process specification language (PSL) theory and applications", AI Magazine , 24(3), 2003. GUARINO, N., OBERLE, D., STAAB, S., "What Is an Ontology?" In: STAAB, S., STUDER, R. Handbook on Ontologies . Segunda Edição. ed. [S.l.]: SpringerVerlag , 2009. HAN, J., Kamber,M. Data Mining Concepts and Techniques . Morgan Kaufmann Publishers, 2006. HOLSAPPLE, C. W., JOSHI, K. D. A, "Collaborative Approach to Ontology Design", Communications of the ACM , 45, n. 2, 2002. JANSEN, L. Categories: The Top-Level Ontology. [S.l.]: [s.n.], 2008. JIANG, J. J., CONRATH, D. W., "Semantic similarity based on corpus statistics an lexical taxonomy", Proc. Int. Conf. Research on Computational Linguistics (ROCLING X) , 1997. KANT, I. Crítica da Razão Pura . 4a edição (1997). ed. [S.l.]: Fundação Calouste Gulbenkian, 1781. ISBN 972310623X. KIM, J., "Knowledgerich catalog services for engineering design",. Artificial Intelligence for Engineering Design, Analysis and Manufacturing , 17(4), 2003. KONCHADY, M. Text Mining Application Programming . Massachusetts: Charles River Media, Thomson Learning Inc., 2006. LENAT, D. B., GUHA, R. V. Building Large Knowledge-Based Systems: Representation and Inference in the Cyc Project . Boston: AddisonWesley, 1990. LI, Z., YANG, M. C., RAMANI, K., "A methodology for engineering ontology acquisition and validation", Artificial Intelligence fo rEngineering Design, Analysis and Manufacturing , USA, n. 23, 2009. 3751. LÓPEZ, M. F., GÓMEZPERÉZ, A., SIERRA, J. P., "Building a Chemical Ontology Using Methontology and the Ontology Design Environment", IEEE Intelligent Systems , 1999. MASOLO, C., Wonder Web. Laboratory for Applied Ontology, 2011. Disponivel em: http://www. /www.loacnr.it/DOLCE.html, Acesso em: 20 mar. 2011. MIKA, P. Social Networks and the Semantic Web . [S.l.]: Springer, 2007.

131

MOLESKI, M. X., "Polanyi vs. Kuhn: Worldviews Apart", Tradition & Discovery: The Polanyi Society Periodical . MULLINS, P., JACOBS, S., "Michael Polanyi and Karl Mannheim." Tradittion & discovery: The Polanyi Society Periodical . OBRST, L., Ontologies for Semantically Interoperable Systems . s.l., USA : The MITRE Corporation, 2003 PARK, J., CHO, W., SANGKYU, R., "Evaluating Ontology Extraction Tools Using a Comprehensive Evaluation Framework". Data & Knowledge Engineering , 2010. PIERCE, J. R. An Introduction to Information Theory Symbols, Signals and Noise . [S.l.]: Dover Publications, 1980. POLANYI, M. Personal Knowledge - Towards a Post-Critical Philosophy . New York: Harper Torchbooks, 1958. 1ed. 1958 p. RESNIK, P., "Semantic similarity in a taxonomy: an informationbased measure and its application to problems of ambiguity and natural language", Artificial Intelligence Research , 11, 1999. REZGUI, Y., "Textbased domain ontology building using TfIdf and metric clusters techniques", The Knowledge Engineering Review , 2007. Vol. 22:4, 379403. ROSA, L. P. Tecnociências e Humanidades - Novos Paradgmas, Velhas Questões . São Paulo: Paz e Terra, 2006. SALTON, G., BUCKLEY, C., "Term weighting approaches in automatic retrieval", Information Processing and Management , 1988. SALTON, G., MCGILL, M. J. Introduction to Modern Information Retrieval . [S.l.]: McGrawHill Book Company, 1983. SHAH, N., MUSEN, M., "Ontologies for Formal representation of Biological Systems", In: STAAB, S., STUDER, S. Handbook on Ontologies . [S.l.]: [s.n.], 2009. SHAMSFARD, M., BARFOROUSH, A. A., "The state of the art in ontology learning: a framework for comparison", The Knowledge Engineering Review , 18:4, 2003. SIM, S. K., DUFFY, A. H. B., "Towards an ontology of generic engineering", Research in Engineering Design , 14, 2003. SMITH, B., An Introduction to Biomedical Ontology in Eight Lectures , video, Buffalo University, New York : s.n., 2008 SOWA, J. F. Ontology. Ontology , 2011. Disponivel em: http://www.jfsowa.com/ontology . Acesso em: 10 mar. 2011. SPEAR, A. D. Ontology for the Twenty First Century: An Introduction with Recommendations . Germany: Saarbrücken, 2006. STAAB, S., "Knowledge processes and ontologies", IEEE Intelligent Systems , 2001. STAAB, S., STUDER, R. Hanbook of Ontologies . [S.l.]: SpringVerlag, 2009.

132

STEVENS, R., LORD, P., "Application of Ontologies in Bioinformatics", In: STAAB, S., STUDER, S. Handbook on Ontologies . [S.l.]: [s.n.], 2009. SUMO. SUMO. Suggested Upper Merged Ontology (SUMO) , 2011. Disponivel em: http://www.ontologyportal.org ,. Acesso em: 11 mar. 2011. SWARTOUT, B, "Toward Distributed Use of LargeScale Ontologies", AAAI Symposium on Ontological Engineering , Stanford, 1997. USCHOLD, M., GRÜNINGER, M., "ONTOLOGIES: Principles, Methods and Applications", Knowledge Eng. Rev ., 11, n. 2, 1996. USCHOLD, M., GRUNINGER, M. L., "Ontologies and Semantics for Seamless Connectivity", SIGMOND Record , Vol. 33, No. 4, 2004. USCHOLD, M., JASPER, R. A, "Framework for Understanding and Classifying Ontology Applications", IJCAI99 Workshop on Ontologies and Problem-Solving Methods , Stockholm, 1999. USCHOLD, M., KING, M., "Towards a Methodology for Building Ontologies", IJCAI95 Workshop on Basic Ontological Issues in Knowledge Sharing . [S.l.]: [s.n.]. 1995. WITHERELL, P., KRISHNAMURTY, S., GROSSE, I. R., "Ontologies for supporting engineering design optimization", ASME Journal of Computing and Information Science in Engineering , 7(2), 2007. ZIPF, G. K. Human Behavior and the Principle of Least Effort . [S.l.]: Addison Wesley, 1949.

133

Apêndice I brownian correlation brownian motion dust Conjunto brownian noise correlation function dynamic TMEspVirtual brownian correlation length dynamical action potential cantor countable stability cantor bar criterion dynamical systems address cantor dust critical earth affine transformation cantor set critical dimension earthquake aggregate carpet critical exponent eddy aggregation critical phenomena effect aggregation clustercluster cascade critical point element algorithm cauchy critical energy amplitude cell crosssection energy barrier analysis cellularautomata cube entropy angle central limit theorem curd equation approximation channel curdling equilateral triangle area channel protein curve euclidean atmosphere chaos cutoff euclidean dimension attraction cycle euclidean distance attractor chaos physiological datum set event autocorrelation chaotic density expansion automaton chaotic behavior deterministic exponent backbone chaotic system deterministic chaos exponent percolation bakers transformation circle deterministic fractal factor ball of radius circle map devil staircase fault basin cloud diagram feedback basin of attraction cluster diameter feigenbaum behavior cluster size difference equation feigenbaum constant bernoulli clustercluster differential equation fern bifurcation clustered diffusion fibonacci bifurcation diagram coarse multifractal diffusion equation field line binomial distribution coastline diffusionlimitedaggregat... finalstate bond coastline fractal diffusionlimitedaggrega... fingering borel coefficient dimension firstorder borel set collage theorem dimension cluster fixed boundary complex dimension covering fixed point boundary condition complex number dimension entropy flight box complex plane dimension information flow box dimension conditional probability dimension local fluctuation boxcounting conformational state dimensiond fluid boxcounting dimension connectedness dispersion force boxcounting method continuity equation displacement force capillary branch continuous function dissipation forecast branching contraction distribution formula breakdown convection distribution normal fourier brown copy distribution of galaxy fourier amplitude

134 fourier dimension graph iterate magnitude fourier transform grid iteratedfunctionsystem mandelbrot fractal growth iteration mandelbrot set fractal cluster hamiltonian iterator map fractal curve hamiltonian systems julia mapping fractal diffusion hausdorff julia set markov fractal dimension hausdorff dimension koch mass fractal dimensiond hausdorff distance koch curve mass dimension fractal distribution hausdorff measure koch island mass distribution fractal dust hausdorffbesicovitch kolmogorov massradius fractal geometry hausdorffbesicovitch dim... kolmogorov entropy massradius relation fractal growth hausdorffbesicovitch dim... lacunarity mathematic heleshaw landscape mathematical model fractal measure henon laplace mean fractal model henon attractor laplace equation measure fractal noise hilbert lattice measure binomial fractal percolation histogram law measure harmonic fractal set homogeneous turbulence multifractal fractal statistical hull lebesgue measure measure probability fractal structure hurst legendre transform medium fractal hurst exponenth length menger fractal surface hyperbolic length scale fractal tree hyperbolic distribution level meteorologist fraction independent increment level set method fractional infinite levy middlethird fractional brown infinite cluster levy flight midpoint fractional brownian infinite number liebovitch fractionalbrownian motion infinity limit cycle model fractional dimension information line model dielectric frequency information theory mogul frequency ratio initial condition lipschitzholder exponent monotonicity friction initial point local monster function initial state logarithm motion function fractal initiator logarithmic spiral multifractal galaxy interaction logistic equation multifractal spectrum game of length multiplereductioncopym... gasket invariance loop nature gaussian invariant lorenz navierstokes equation gaussian distribution invariant measure lorenz attractor nearestneighbor gaussian process invariant set lorenz equation network generation invasion percolation lsystem neural network generator ion channel lyapunov neuron geometric irrational number lyapunov dimension neutron scattering geometry irregularity lyapunov exponent newton global island magnetic newton method golden mean island fractal magnetic field noise

135 noise gaussian poincare relationship size nondifferentiable conti... poincare section relativedispersion size pore nonlinear point relief slope number point of view renormalization snowflake curve number of point poisson distribution renormalization group space number theory polygon rescaledrange spatial object population dynamic rescaledrange analysis spatial frequency orbit porosity reynolds number special case order porous river spectral order of magnitude porous media rotation spectral analysis oscillation porous medium rough surface spectral dimension packing power spectrum saddle point spectrum powerlaw scale sphere packing measure powerlaw distribution scale invariance spiral parabola powerlaw scaling scaling square parameter prandtl number scaling exponent square lattice particle pressure scaling law square root pascal prisoner scaling ratio staircase peano prisoner set segment starting point probability seismicity state pendulum probability densityfunction self stationarity percolation probability distribution selfaffine statistic percolation cluster probability theory selfaffine curve statistical percolation site product selfaffine fractal statistical selfsimilarity percolation threshold projection selfaffine function statistically selfsimilar perimeter quadratic selfavoiding stochastic process perimeter fractal quantum mechanic selforganizing system straight line period radius selfsimilar strange period length random selfsimilar fractal strange attractor perioddoubling random fractal selfsimilar measure stream order periodic random function selfsimilar set structure periodic orbit random number selfsimilarity subset periodic point random process selfsimilarity dimension surface phase random variable sensitive dependence surface area phase plane random walk sequence symbol phase transition set symmetry phasespace range set of point tangent phenomenon rate shape physic ratio sierpinski tenttransformation physical system physicist rayleigh sierpinski gasket theorem piece rayleigh number signal theory pinball reaction similarity thermal place similarity dimension thermal convection plane rectangle similarity transformation threebody problem plate region singular function threedimensional

136 threedimensional cloud trajectory triangular lattice viscous fingering threedimensional space transformation turbulence von koch threshold transition twodimensional von neumann time transport phenomena uniform distribution waveheight time interval tree unit wavelength time scale trema weierstrass tremas unit square white noise topography triadic variance zipf topological triadic cantorset velocity zipf law topological dimension triadic koch vertex trail triangle viscous

137

Apêndice II