MÉTODOS COMPUTACIONAIS PARA A CONSTRUÇÃO DA ONTOLOGIA DE DOMÍNIO FRACTAL
Ivo Wolff Gersberg
Dissertação de Mestrado apresentada ao Programa de Pós graduação em Engenharia Civil, COPPE, da Universidade Federal do Rio de Janeiro, como parte dos requisitos necessários à obtenção do título de Mestre em Engenharia Civil.
Orientadores: Nelson Francisco Favilla Ebecken Luiz Bevilacqua
Rio de Janeiro Agosto de 2011
MÉTODOS COMPUTACIONAIS PARA CONSTRUÇÃO DA ONTOLOGIA DE DOMÍNIO FRACTAL
Ivo Wolff Gersberg
DISSERTAÇÃO SUBMETIDA AO CORPO DOCENTE DO INSTITUTO ALBERTO LUIZ COIMBRA DE PÓS GRADUAÇÃO E PESQUISA DE ENGENHARIA (COPPE) DA UNIVERSIDADE FEDERAL DO RIO DE JANEIRO COMO PARTE DOS REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE MESTRE EM CIÊNCIAS EM ENGENHARIA CIVIL.
Examinada por:
______
Prof. Nelson Francisco Favilla Ebecken, D.Sc.
______
Prof. Luiz Bevilacqua, Ph.D.
______
Prof. Marta Lima de Queirós Mattoso, D.Sc.
______
Prof. Fernanda Araújo Baião, D.Sc.
RIO DE JANEIRO, RJ BRASIL AGOSTO DE 2011
Gersberg, Ivo Wolff Métodos computacionais para a construção da Ontologia de Domínio Fractal/ Ivo Wolff Gersberg. – Rio de Janeiro: UFRJ/COPPE, 2011. XIII, 144 p.: il.; 29,7 cm. Orientador: Nelson Francisco Favilla Ebecken Luiz Bevilacqua Dissertação (mestrado) – UFRJ/ COPPE/ Programa de Engenharia Civil, 2011. Referências Bibliográficas: p. 130 133. 1. Ontologias. 2. Mineração de Textos. 3. Fractal. 4. Metodologia para Construção de Ontologias de Domínio. I. Ebecken, Nelson Francisco Favilla et al . II. Universidade Federal do Rio de Janeiro, COPPE, Programa de Engenharia Civil. III. Titulo.
iii
À minha mãe e meu pai, Basia e Jayme Gersberg.
iv
AGRADECIMENTOS
Agradeço aos meus orientadores, professores Nelson Ebecken e Luiz Bevilacqua, pelo incentivo e paciência.
Ao professor Luiz Bevilacqua por ter me ensinado ser possível retirar um colete de uma pessoa sem retirar o paletó.
Aos professores Luiz Landau e Fernando Pellon pelo livre pensar em minhas atividades.
Ao professor Jorge de Albuquerque Vieira por semear as primeiras noções sobre a Complexidade, germinantes desta dissertação.
Aos companheiros de laboratório, LABSAR COPPE/UFRJ.
Ao Orlando e Célio, do laboratório de informática do Programa de Engenharia Civil, por disponibilizar espaço, equipamento e café.
v
Resumo da Dissertação apresentada à COPPE/UFRJ como parte dos requisitos necessários para a obtenção do grau de Mestre em Ciências (M.Sc.)
MÉTODOS COMPUTACIONAIS PARA A CONSTRUÇÃO DA ONTOLOGIA DE DOMÍNIO FRACTAL
Ivo Wolff Gersberg
Agosto/2011
Orientadores: Nelson Francisco Favilla Ebecken Luiz Bevilacqua
Programa: Engenharia Civil
Este trabalho propõe uma metodologia para construção de uma ontologia de domínio baseada em Mineração de Textos, tendo o saber matemático fractal como domínio específico. A metodologia proposta leva em consideração uma base textual composta de livros essenciais do saber fractal, comparando os resultados obtidos oriundos dos conteúdos dos livros com os resultados identificados por um especialista e também apenas considerando os índices remissivos dos livros em questão (especialista virtual). Um protótipo de uma aplicação Web foi implantado, permitindo buscas contextuais por aproximação ontológica na Ontologia de Domínio Fractal criada.
vi
Abstract of Dissertation presented to COPPE/UFRJ as a partial fulfillment of the requirements for the degree of Master of Science (M.Sc.)
COMPUTATIONAL METHODS TO BUILD THE FRACTAL DOMAIN ONTOLOGY
Ivo Wolff Gersberg
August/2011
Advisors: Nelson Francisco Favilla Ebecken Luiz Bevilacqua
Department: Civil Engineering
This work proposes a methodology for building a domain ontology based on Text Mining and the fractal mathematical knowledge as domain specific. The proposed methodology takes into account a textual knowledge base composed of fractal essential books, comparing the results obtained from the contents of books with the results identified by an expert and, also, just considering the indexes of the books in question (virtual expert). A prototype of a web application was deployed, allowing contextual search by ontological approach in the Fractal Domain Ontology created.
vii
Sumário
CAPÍTULO 1. DA INTRODUÇÃO ...... 1
1.1 dos Objetivos ...... 4
1.2 do Recorte do Domínio Matemático, Fractal ...... 6
1.3 da Organização da Dissertação ...... 7
CAPÍTULO 2. DAS MOTIVAÇÕES ...... 8
CAPÍTULO 3. DA CONCEPÇÃO DE ONTOLOGIAS E AFINS ...... 14
3.1 de Ontologias e suas Definições ...... 14
3.1.1 da pergunta, O que é Ontologia ? ...... 14
3.1.2 dos Tipos de Ontologias ...... 18
3.1.3 das Linguagens Formais de Ontologias ...... 23
3.2 das Considerações sobre Mineração de Textos ( Text Mining ) ...... 24
3.3 de Técnicas de Mineração de Textos Úteis à Construção de Ontologias ...... 26
3.3.1 da Importância de Substantivos e a Extração de Termos ...... 26
3.3.2 da Distribuição de Termos ...... 30
3.4 das Metodologias para Construção de Ontologias Relatadas na Literatura...... 31
3.4.1 de uma Ontologia Aplicada à Química, Methontology ...... 37
3.4.2 de uma Abordagem Colaborativa para e commerce e Ensino à Distância ...... 40
3.4.3 de uma Ontologia Aplicada à Engenharia ...... 41
CAPÍTULO 4. DA CONSTRUÇÃO DA ONTOLOGIA ...... 52
4.1 da Metodologia Empregada nesta Dissertação ...... 54
4.1.1 da Metodologia Proposta: Fase 1, Especificação ...... 55
4.1.2 da Metodologia Proposta: Fase 2, Pré Processamento ...... 57
4.1.3 da Metodologia Proposta: Fase 3, Aquisição ...... 59
4.1.4 da Metodologia Proposta: Fase 4, Escolha de Termos e Relações ...... 60
4.1.5 da Metodologia Proposta: Fase 5, Formalização ...... 61
4.1.6 da Metodologia Proposta: Fase 6, Validação ...... 61
4.2 dos Resultados do Processamento...... 61
4.2.1 da Extração e Escolha de Termos ...... 61
viii
4.2.2 da Extração de Possíveis Relações ...... 77
4.3 da Construção da Ontologia de Domínio Fractal ...... 81
4.3.1 da Escolha do Primeiro Nível da Ontologia ...... 82
4.3.2 da Construção Manual no Protégé OWL ...... 87
4.4 da Auto Similaridade do Corpus ...... 91
CAPÍTULO 5. DA VALIDAÇÃO ...... 95
5.1 da Validação pelo Corpus Fractal ...... 96
5.2 da Validação pelo Corpus ScienceDirect ...... 104
CAPÍTULO 6. DA VISUALIZAÇÃO ...... 115
CAPÍTULO 7. DAS CONCLUSÕES ...... 121
CAPÍTULO 8. DOS TRABALHOS FUTUROS ...... 126
REFERÊNCIAS BIBLIOGRÁFICAS ...... 130
APÊNDICE I ...... 134
APÊNDICE II ...... 138
APÊNDICE III ...... 144
ix
Lista de Figuras
Figura 1 – Ontologia e sua Diversidade de Aplicações ...... 3 Figura 2 – Livros Adotados para Extração do Paradigma Fractal ...... 6 Figura 3 Visão de Polanyi acerca do Conhecimento adaptado de (Grant, 2007) ...... 13 Figura 4 – Primeira Ontologia da História: Porfírio sobre as Categorias de Aristóteles (séc.III) extraído de (Smith, 2008) ...... 19 Figura 5 – Ontologia SNAP ...... 22 Figura 6 – Relações Primitivas de um Recorte de BFO ...... 22 Figura 7 – Espectro Ontológico de Leo Obrst ...... 24 Figura 8 – Distribuição de termos segundo a Lei de Zipf. Exemplo de 3 livros: A Bíblia, Alice no País das Maravilhas e Tale of Two Cities . (extraído de (Konchady, 2006) ) . 31 Figura 10 – Ciclo de Vida proposto pela Metodologia Methontology extraído de (Lopez et al ., 1999) ...... 38 Figura 11 – Fase de Conceituação da Methontology ...... 39 Figura 12 – Estágios da Metodologia eCognos para Construção de Ontologias de Domínio extraído de (Rezgui, 2007) ...... 44 Figura 13 – Esquema Básico de EO extraído de (Li et al ., 2009) ...... 47 Figura 14 – Passos da Metodologia EO, extraído de (Li et al ., 2009) ...... 48 Figura 16 – Visão Geral das Etapas Implantadas ...... 52 Figura 17 – Metodologia Proposta e Implantada ...... 54 Figura 18 – Exemplos de uma Página dos Livros Adotados (esquerda) e de uma Página dos Índices dos Livros Adotados (direita) ...... 58 Figura 19 – Distribuição de Unigramas Extraídos pelo Critério (rank>0,95) (cenário TM) ...... 62 Figura 20 – Distribuição de Termos Unigramas, Agrupados pelas Ferramentas ...... 62 Figura 21 Distribuição de Bigramas Extraídos por cada Ferramenta (cenário TM) ... 63 Figura 22 – Distribuição de Termos Bigramas, Agrupados pelas Ferramentas (cenário TM) ...... 63 Figura 25 – Distribuição de Bigramas Extraídos por cada Ferramenta (cenário EspVirt) ...... 65 Figura 26 – Distribuição de Termos Bigramas, Agrupados pelas Ferramentas (cenário EspVirt) ...... 65 Figura 27 – Análise Quantitativa da Extração de Unigramas e Bigramas pelas ferramentas adotadas ...... 66 Figura 28 Conjunto Interseção de Unigramas e Bigramas, Agrupado por Medidas em Comum (cenário TM) ...... 68
x
Figura 29 Conjunto Interseção de Unigramas e Bigramas, Agrupado por Medidas em Comum (cenário EspVirt) ...... 68 Figura 30 – Termos em Comum com Cenário ESP ...... 76 Figura 31 Relações Escolhidas pelo Especialista: T2 (esquerda) e PA (direita) ...... 79 Figura 32 – Relações Escolhidas pelo Especialista: PA modificado ...... 80 Figura 33 – Relações Mais Frequentes...... 81 Figura 34 – Link Analysis Especialista para Geração do Nível 1 da Ontologia ...... 84 Figura 35 – Link Analysis TMEspVirtual para Geração do Nível 1 da Ontologia ...... 84 Figura 36 Link Analysis ESP_TMEspVirtual para Geração do Nível 1 da Ontologia . 85 Figura 37 Link Analysis EspVirt (exclusivamente Especial.Virtual) para Geração do Nível 1 da Ontologia ...... 85 Figura 38 – Nível 1 da Ontologia de Domínio Fractal ...... 87 Figura 39 – Exemplo de Axiomas Criados ...... 88 Figura 43 – Validação Mandelbrot, conjunto Especialista sobre Corpus FRACTAL .... 98 Figura 44 Validação Mandelbrot, conjunto TMEspVirtual sobre Corpus FRACTAL .. 99 Figura 45 Validação Mandelbrot, conjunto ESP_TMEspVirtual sobre Corpus FRACTAL ...... 100 Figura 46 Validação Mandelbrot, conjunto EspVirt sobre Corpus FRACTAL ...... 101 Figura 47 – Região de Mais Alta Concentração do Conjunto TMEsp_Virtual sobre o Corpus FRACTAL ...... 102 Figura 48 – Correlações Mais Fortes, Base ScienceDirect (Taxonomia Própria) ...... 105 Figura 49 Grafo dos Nós Mais Relevantes de Cada Conjunto Selecionado aplicado sobre o Corpus ScienceDirect (medida suporte >52) ...... 107 Figura 50 – Conjunto Especialista aplicada à base ScienceDirect ...... 108 Figura 51 Conjunto TMEspVirtual aplicada à base ScienceDirect ...... 109 Figura 52 Conjunto EspVirt aplicada à base ScienceDirect ...... 109 Figura 53 – Validação Mandelbrot, TMEsp_Virtual sobre Corpus ScienceDirect ...... 110 Figura 54 Taxonomia dos Conceitos da Ontologia de Domínio Fractal aplicada à Bíblia Sagrada ...... 111 Figura 55 – Medida Suporte sobre Caos de James Gleick...... 112 Figura 56 – Medida Tensão para Nível 1 sobre Caos de James Gleick ...... 112 Figura 57 – Grafo Completo de Conjunto ESP_TMEspVirtual sobre Caos de James Gleick ...... 113 Figura 58 – Protótipo Web de Buscas Orientadas por Ontologias...... 115 Figura 60 Consulta por Aproximação Ontológica ...... 118 Figura 61 – Visão Quantitativa, em Nuvem, das Relações Taxonômicas...... 120
xi
Figura 62 – Visão Gráfica do Desempenho das Ferramentas em Relação ao conjunto Especialista ...... 125 Figura 63 Conceitos de Outros Domínios ...... 127
xii
Lista de Tabelas
Tabela 1 – Relação Tf IDF e Ocorrência de um Termo em um Corpus...... 30 Tabela 2 – Métodos Associados à Aprendizado de Ontologias baseado em (Gomez Perez et al ., 2005) ...... 34 Tabela 3 – métodos da tabela anterior e suas respectivas técnica de aprendizado de ontologias baseado em (Gomez Perez et al., 2005) ...... 35 Tabela 4 – Representações Externas Independentes de Formalismo, metodologia Methontology extraído de (Lopez et al ., 1999) ...... 40 Tabela 5 – Abordagem Colaborativa para Construção de Uma Ontologia baseado em (Holsapple et al ., 2002) ...... 41 Tabela 6 – Cenários para Aquisição de Conceitos ...... 56 Tabela 7 – Comparação dos Termos Extraídos dos Conteúdos dos Livros x EspVirt . 71 Tabela 8 – Número de Termos para Escolhas (cenário ESP) ...... 74 Tabela 9 – Recorte dos Resultados da Ferramenta T2 para Extração de Relações ... 79 Tabela 10 – Algumas Relações Não Taxonômicas da Ontologia de Domínio Fractal . 89 Tabela 12 – Dimensão dos Livros Adotados e do Corpus ...... 92 Tabela 13 – Relevância de Algumas Buscas na Ontologia ...... 118 Tabela 14 – Considerações Finais sobre o Uso de Índices dos Livros ...... 122 Tabela 15 – Desempenho das Ferramentas em Relação ao conjunto Especialista .. 124
xiii
CAPÍTULO 1. da Introdução Como alargar o conhecimento? Alargar o conhecimento implica sistematizá lo de modo a juntar peças de um quebra cabeça cognitivo já existente e revelar pontos de contatos inspiradores ao novo. Somente juntando o que existe, de maneira coerente, é possível diminuir a distância entre saberes díspares e proporcionar uma verdadeira abordagem interdisciplinar e, ainda, mesmo dentro de um mesmo saber, alcançar um enriquecimento disciplinar sob diferentes visões e perspectivas.
A nossa questão inicial e atemporal de investigação, sucede a questão de Kant, Como é possível o conhecimento? Na Analítica dos Conceitos , da Crítica da Razão Pura, Kant coloca que “o conhecimento de todo entendimento, pelo menos do entendimento humano, é um conhecimento por conceitos , que não é intuitivo, mas discursivo. Todas as intuições, enquanto sensíveis, assentam em afecções e os conceitos, por sua vez, em funções. Entendendo por função a unidade de ação que consiste em ordenar diversas representações sob uma representação comum...” (Kant, 1781). Deslocando do imenso contexto filosófico que trata de questões acerca da representação comum kantiana, esbarramos no sentido computacional atual que pretende representar o conhecimento em uma representação comum, as ontologias.
Para os sistemas de Inteligência Artificial, o que existe é o que pode ser representado. A ontologia computacional é um modo de modelar formalmente a estrutura de um sistema, ou seja, entidades relevantes e relações emergem da observação, se tornando úteis aos nossos propósitos. O engenheiro de ontologias analisa as entidades mais relevantes (entes mais gerais e abstratos que podem ser subdivididos em objetos, processos, ideias, etc.) e os organiza em conceitos 1 e relações . O esqueleto de uma ontologia consiste em uma hierarquia de conceitos generalizados e especializados (Guarino et al ., 2009) de maneira similar a uma taxonomia.
A semelhança com o passado filosófico persiste, temos ainda em Kant: “se abstrairmos de todo conteúdo de um juízo em geral e atendermos à simples forma do entendimento, encontramos que nele a função do pensamento pode reduzir se a
1 Como bem alerta Guarino, o uso do termo “conceito” é bastante problemático, pois por vezes em ciência da computação é tratado como “ propriedade s”. Conceitos correspondem melhor a “universais” , ou seja, um universal que possa ter instâncias.
1 quatro rubricas”, acomodadas em uma tábua 2. Continua Kant, “diversas representações são reduzidas, analiticamente, a um conceito. (...) por este motivo se dá a estas representações 3 o nome de conceitos puros do entendimento, que se referem a priori aos objetos (...) Deste modo, originam se tantos conceitos puros do entendimento, referidos a priori a objetos da intuição em geral, quanto as funções lógicas em todos os juízos possíveis que há na tábua anterior... Chamaremos a estes conceitos categorias 4, como Aristóteles, já que o nosso propósito é de início, idêntico ao seu, embora na execução dele se afaste consideravelmente. (...) que esta tábua (das categorias) é de extraordinário préstimo e até indispensável na parte teórica da filosofia, para elaborar integralmente o plano do todo que forma uma ciência , na medida em que assenta sobre conceitos a priori, e para a dividir sistematicamente, segundo princípios determinados , é o que obviamente se depreende do fato dessa tábua conter a lista completa dos conceitos elementares do entendimento e até mesmo a forma de um sistema desses conceitos no entendimento humano, indicando, por conseguinte, todos os momentos de uma projetada ciência especulativa e, inclusivamente, a sua ordenação ...” (Kant, 1781).
Embora, neste último parágrafo Kant esteja investigando os conceitos puros (onde puro é um termo técnico em Kant), independentes da experiência e condições de possibilidade desta, vemos sua intenção em criar uma hierarquia de conceitos que permitissem a sistematização do conhecimento. Das categorias mais abstratas e necessárias, propiciando todos os momentos de ciências conseqüentes, ou seja, a construção de uma conceituação que permita estruturar outros domínios específicos. Ora, esta é exatamente a proposta atual sobre ontologias.
Diversos são os usos de ontologias, no sentido atual 5. Uns, ao invés de capturar plenamente o conhecimento de um determinado domínio, as utilizam para criar um vocabulário controlado e consensual. Tal vocabulário seria usado como conhecimento
2 A tábua consiste de: Quantidade (universais, particulares, singulares), Qualidade (afirmativos, negativos, infinitos), Relação (categóricos, hipotéticos, disjuntivos) e Modalidade (problemáticos, assertóricos, apodíticos). 3 Por não ser o objetivo desta dissertação, pulou se toda uma imensa questão acerca do conteúdo transcendental e suas sínteses na formação dos conceitos puros do entendimento. 4 Uma extensão da tábua anterior, Quantidade (unidade, pluralidade, totalidade), Qualidade (realidade, negação, limitação), Relação (inerência e subsistência, causalidade e dependência, ação recíproca) e Modalidade (possibilidade e impossibilidade, existência e não existência, necessidade e contingência). 5 Alguns consideram a ontologia de cunho filosófico como Ontologia, palavra iniciada com letra maiúscula, enquanto a ontologia no sentido atual seria iniciada com minúscula (Guarino, et al., 2009).
2 compartilhado de modo formal, através de tecnologias voltadas para inferências, e informal, explicitando alguns sentidos em textos (Staab et al ., 2009).
Ainda considerando este vocabulário, sofisticados sistemas semânticos de indexação de banco de dados são criados, estruturando repositórios de informação que incluem documentos textuais não estruturados, culminando no aperfeiçoamento de sistemas de recuperação da informação (Uschold et al ., 2004). Outros a utilizam para integração de base de dados, apoiados em uma abordagem semântica. Outros em portais semânticos, como um sistema de recomendações baseado em ontologias (Staab et al ., 2009). Ainda outros, apenas como um modelo de informação, provendo uma estrutura organizada de um determinado interesse, como uma teia de dados, descrevendo como diferentes partes da informação se relacionam umas com as outras (ex.: experiências biológicas laboratoriais e descrições de amostras).
Em um sentido mais clássico, como Representação do Conhecimento, onde a ontologia é a especificação de conceitos e relacionamentos em um domínio de discurso, acrescido de declarações das propriedades dos relacionamentos e, em alguns casos, acrescidos de um conjunto de axiomas inferindo conceitos e relações. Assim, o conhecimento é tratado como um modelo formalizado, de maneira que possa ser entendido por humanos e por sistemas baseados em máquinas (Shah et al ., 2009).
O universo de aplicação de uma ontologia cresce em diversidade, como pode ser visto na Figura 1.
Figura 1 – Ontologia e sua Diversidade de Aplicações baseado em (Stevens et al ., 2009)
3
Contudo, nosso interesse maior, pormenorizado na seção de motivações, é encontrar uma via de convergência entre Filosofia e Ciências da Computação, de modo a investigar congruências de saberes, ou seja, o quanto imbricado os saberes podem ser, através de Ontologias como Representação do Conhecimento. Uma vez que este espectro é bastante amplo e ambicioso, nos restringiremos a um passo inicial desta ampla investigação. Constatamos que sem uma representação formal do conhecimento, tal investigação não seria possível, logo faz se necessário a existência de ontologias com este viés 6. Uma vez que não as temos, o passo inicial e meta desta dissertação será a investigação de metodologias de construção de uma ontologia acerca de um domínio específico do saber e, por conseguinte, construção desta.
1.1 dos Objetivos Nossa preocupação se resume em uma vontade de tratar o conhecimento, e de alguma maneira alargá lo. A representação do conhecimento se estende além da produção do próprio conhecimento e alargá lo significa identificar o comportamento de ontologias em uma abordagem epistemológica. Como dito anteriormente, não as temos (as ontologias) dentro deste prisma, portanto, o objetivo desta dissertação é construir uma ontologia de domínio, de maneira genérica, e que reflita um conhecimento de um especialista no recorte de saber adotado, com o auxílio de técnicas de Mineração de Textos. Assim sendo, além de preparar o terreno epistemológico, neófitos poderão ter um primeiro contato de fácil compreensão sobre o saber fractal. Neste sentido, serão investigadas algumas metodologias existentes na literatura técnica e, por conseguinte, proporemos uma metodologia de construção de uma ontologia. Ao final apresentaremos um protótipo formalizado da ontologia de domínio criada.
A presença de um especialista, amplamente ressaltada na literatura, é considerada de importância vital, uma vez que o engenheiro de ontologias na imensa maioria das ocasiões não detém o conhecimento do domínio específico adotado. Por variados motivos, o tempo disponível pelos especialistas pode ser escasso, portanto a proposta nesta dissertação é criar um arcabouço ontológico preliminar, durante a metodologia, que minimize o número de entrevistas conseqüentes. A figura do “especialista virtual”, como veremos mais adiante, foi criada para conduzir este arcabouço preliminar.
6 Propósito epistemológico.
4
O viés adotado para a construção de uma ontologia, com o nosso propósito, é bastante controverso. Ao dizer que a ontologia a ser construída refletirá a visão de um especialista, imputamos uma tendência, uma não neutralidade.
Todo conhecimento deve necessariamente ser universal, porém uma ontologia que representa um conhecimento é o resultado de um processo de entendimento acerca de algo (o modelo conceitual), representando um ponto de vista (a representação do conhecimento) de quem toma parte do processo, podendo variar dependendo dos contextos. Os conceitos da ontologia são oriundos de conhecimento e ideias teóricas, de experiências de determinados cientistas ou da prática de empregados, no caso de conhecimento corporativo (Cristani et al ., 2004), logo carregando uma alta dose de subjetividade.
Muitos defendem que esta carga subjetiva é danosa, impondo que toda ontologia deveria ser afastada de qualquer epistemologia. Uma ontologia de um saber específico deveria ser uma estrutura linguística simplesmente canônica, ou seja, uma empreitada estritamente pragmática, refletindo apenas os resultados constatados em laboratório, logo afastando as representações cognitivas exclusivas das cabeças dos cientistas (Smith, 2008). Estes, ainda, vão de encontro a um realismo representacional, defendendo que ao modelo conceitual deve se tomar cuidado quanto ao seu teor abstrato, rejeitando as representações dadas sobre as coisas. Assim sendo, modelo deve ser considerado como uma representação que permita um “certo” grau de simulação e aproximação, julgada adequada para o propósito de uma ontologia específica (Grenon et al ., 2003).
Ora, desejamos criar uma ontologia que de fato seja objetiva, porém uma objetividade de uma subjetividade na composição de uma representação do conhecimento, ou seja, reflita a cabeça cognitiva de um especialista pela sua produção textual, sendo assim uma investigação a posteriori . Assim, podemos identificar em uma análise epistemológica, o quanto este especialista/cientista se afasta ou se aproxima dos demais de sua área 7 científica, evidenciando o paradigma ou revelando algo novo, um outlier . Andamos nesta direção por concordarmos com o Perspectivismo, onde o mundo, sendo complexo, necessita de diferentes visões que tragam um caráter evolutivo, alterável e mutante ao conhecimento. Justamente o Realismo e a sua realidade é que irão garantir a integração destes pontos de vista.
7 Até mesmo de outros domínios, evidenciando a multidisciplinaridade e a interdisciplinaridade.
5
1.2 do Recorte do Domínio Matemático, Fractal A ontologia criada teve como domínio específico, um recorte da matemática: Fractal. O conhecimento específico e especialista foi conduzido pelo professor Luiz Bevilacqua, professor titular e emérito da COPPE/Universidade Federal do Rio de Janeiro.
A construção da Ontologia de Domínio Fractal, pressupondo conter os conceitos que representassem o saber fractal de maneira paradigmática, foi construída a partir da Mineração de Textos de um conjunto de 9 (nove) livros textos, criteriosamente escolhidos pelo professor especialista. Tais livros emblemáticos na área de fractal, Figura 2, encontravam se disponíveis na língua inglesa, daí o motivo da ontologia ser criada neste idioma.
Os livros adotados foram classificados a partir de suas especificidades, ou seja, livros estritamente técnicos, livros voltados para aplicações em outros domínios ou de natureza mista. Dentre os estritamente técnicos, temos os autores: Kenneth Falconer, Jean François Gouyet e Heinz Otto Peitgen & Hartmut Jürgens & Dietmar Saupe; entre os voltados para aplicações, James B. Bassingthwaite & Larry S. Liebovitch & Bruce J. West, Donald L. Turcotte e Edward N. Lorenz e, finalmente, os de abrangência mista, Benoit B. Mandelbrot, Jens Feder e Manfred Schroeder.
Figura 2 – Livros Adotados para Extração do Paradigma Fractal
6
1.3 da Organização da Dissertação Estruturada em 8 (oito) capítulos, esta dissertação discorre no capítulo 2 as motivações que originaram as ideias inspiradoras na busca de uma metodologia que permitisse investigar o entrelaçamento dos saberes, por uma perspectiva mista entre Filosofia e Ciências da Computação. Descritas em 6 (seis) páginas, tal capítulo possui um foco na Filosofia da Ciência e pode parecer a princípio deslocado do todo, mas de fato serviu de sêmen para este trabalho e, caso queiram, pode ser deixado de lado sem prejuízo dos demais capítulos.
No capítulo 3 são relatadas as definições de ontologia e as metodologias investigadas na literatura para a construção de uma ontologia. São apresentadas as técnicas de Mineração de Textos, principalmente Tf IDF e significância , que foram utilizadas para a construção da Ontologia de Domínio Fractal. O capítulo 4 apresenta os resultados obtidos com as técnicas de Mineração de Textos, para obtenção dos conceitos e relações que representam o paradigma do recorte matemático Fractal, bem como os passos da construção da ontologia. O capítulo 5 relata a utilização da técnica de Link Analysis para validar os conceitos obtidos, em uma abordagem contextual.
No capítulo 6, temos o relato de um protótipo implementado, originando uma ferramenta Web para buscas contextuais por aproximações ontológicas baseadas na Ontologia de Domínio Fractal. Esta perspectiva contextual permite uma mudança na consulta de conceitos e documentos relevantes, permitindo um deslocamento no objetivo central de pesquisas, ou seja, de conceitos ou substantivos expressados individualmente para uma perspectiva de cenário ou fundo epistemológico do saber em questão. Analisando conceitos relacionados, o que já imbrica um conhecimento na nomeação da relação, permite a recuperação de documentos do Corpus devidamente classificados pela técnica de Vector Space Model (VSM).
O capítulo 7 foi destinado às conclusões, enquanto o último capítulo discorre sobre os possíveis desdobramentos e ideias decorrentes desta dissertação.
7
CAPÍTULO 2. das Motivações A motivação condutora para a realização desta dissertação se condensa na questão: Como é possível alargar o conhecimento? Esta questão foi gerada em discussões no contexto da Filosofia da Ciência, acerca do conceito de paradigma e de influências da Sociologia da Ciência.
A Sociologia da Ciência considera que a realidade na ciência, não passa de uma construção coletiva. Em meados de 1929, Karl Mannheim, sociólogo da ciência, preconizava que o conhecimento se forma no contexto de situações históricas e sociais, afirmando que “...ninguém nega a possibilidade da pesquisa empírica e ninguém sustenta que os fatos não existem. Entretanto a questão da natureza dos fatos constitui em si mesma um problema a ser considerado. Eles existem para a mente sempre dentro de um contexto intelectual e social. A particularidade de poderem ser compreendidos e formulados já implica a existência de um aparelho conceitual” (Rosa, 2006).
Ora, a área de Mineração de Dados e Textos, ávidas por padrões em coleção de dados, encontram nesta afirmação os elementos essenciais para descoberta de conhecimento, ou seja, categorias ou classes implicadas por um aparelho conceitual ao lidar com uma massa de dados oriunda de uma construção coletiva. Daí surge uma primeira inspiração. Como nossa abordagem se concentra em Mineração de Textos, será possível explicitar e alargar o conhecimento a partir de livros destinados a revelar conhecimentos científicos?
O conteúdo das teorias científicas, segundo Mannheim, é influenciado por alguns pontos epistemológicos, a saber:
o pensamento se realiza por categorias historicamente constituídas e a linguagem é a forma pela qual se expressa; a atividade científica é prescrita por uma epistemologia, explícita ou implícita, e esta se liga a uma ontologia 8 e uma metafísica; a visão de mundo moderna é fruto de uma ontologia substancialista, considerada adequada para as ciências naturais; as ciências históricas e humanas necessitam de uma outra base que expresse o caráter processual em lugar do substancialismo;
8 Ontologia aqui não é tratada no sentido da Ciência da Computação atual.
8
uma nova epistemologia mais ampla e genérica é necessária, tal que inclua as ciências naturais como caso limite.
Nestes pontos percebemos persistir uma dicotomia entre ciências naturais e sociais, principalmente no aparelho conceitual. Contudo, ainda acreditamos que uma investigação através de ontologias possa minimizar a distância entre estas, porém nesta dissertação trataremos apenas de um único recorte científico.
Mannheim, juntamente com o químico e filósofo Michael Polanyi e, ainda, um grupo denominado “ the Moot ” (ao qual fazia parte T. S. Eliot), cunharam o termo clérigo do conhecimento . Tal termo era designado a uma elite, intelligentsia , cujos membros se reconhecem devido a um certo treinamento (Mullins et al .). A formação acadêmica do cientista pode induzi lo a ver o mundo de uma certa forma, nos moldes de um paradigma (sentido atribuído por Thomas Kuhn 9). O reconhecimento pode ser dado a uns e negado a outros, não somente pela competência, mas também pela adaptação ao paradigma. Aqui reside o ponto ao qual acreditamos ser possível revelar através de uma investigação epistemológica orientada por ontologias: o quanto muitos seguem os mesmos conceitos.
Michael Polanyi, também, pretender alertar sobre um caminho único pelos cientistas, ao dizer que “não podemos indagar por uma mente comum ou uma ação comum por parte dos membros do clérigo. Eles possuem uma função comum, (...) eles têm ao menos um interesse comum – o interesse de sobrevivência do clérigo, (...) mas eles não possuem uma concordância de como promover isto. Concordância e ação comum somente serão possíveis por um grupo específico do clérigo. Quando o clérigo forma um grupo onde a concordância é possível, isto se dá devido a afinidades que diferenciam estes de outros clérigos. (...) a primeira função do clérigo é manter a herança mental viva e conduzi la a seus sucessores, (...) o crescimento do conhecimento continua somente porque existem nos dias de hoje cleros especialistas, como no mundo da ciência” (Mullins et al .).
Tendo em mente que em cada domínio específico dos saberes, existem pequenos grupos de especialistas, Polanyi aponta que a função destes reside na supervisão do aprendizado dos novatos, os posicionando profissionalmente, sancionando ou proibindo seus produtos profissionais. Com uma posição bastante
9 Thomas Kuhn, nos dias de hoje, é quase sinônimo de paradigma, contudo tal conceito já tinha sido concebido por Polanyi.
9 crítica acerca de uma comunidade dedicada e oprimida por um conjunto de pensamentos majoritários, Polanyi implora pelo exercício crítico e racional para que ocorram mudanças, um choque de autoridade para que novas inspirações superem a tensão criada pela possibilidade do novo.
Como resolver o conflito que permita mudanças? Continuando com as não muito animadoras palavras de Polanyi: “Não existe alguém que decida, é necessário para cada geração, em último caso, o uso da força. Durante este processo, excêntricos e imprudentes são colocados em cheque e gênios não reconhecidos correm o risco da fome. Assim é que cada geração é largada por sua própria conta – escutar atentamente a inspiração original de nossa civilização, sua própria consciência e Deus” (Mullins et al .).
Por outro lado, Thomas Kuhn atribui a possibilidade de tais mudanças somente através do que ele cunhou como mudança de paradigmas 10 . Kuhn define paradigma como (Rosa, 2006):
um resultado científico fundamental que inclui ao mesmo tempo uma teoria e algumas aplicações, os resultados das experiências e da observação... Um resultado cujo completar está em aberto e que deixa toda espécie de investigação ainda por ser feita... Um resultado aceito no sentido de que é recebido por um grupo cujos membros deixam de tentar opor lhe uma teoria rival ou de criar alternativas; exceto durante os períodos ocasionais extraordinários, os praticantes de uma especialidade científica madura aderem profundamente à determinada maneira de olhar e investigar a natureza baseada num paradigma. O paradigma diz lhes quais tipos de entidades que o universo está povoado e qual a maneira como essa população se comporta; além disso informa quais questões sobre a natureza podem legitimamente ser postas e quais técnicas que podem ser devidamente aplicadas na busca de respostas; o esforço continuado para ajustar os paradigmas à natureza produz um conhecimento e uma compreensão de pormenores esotéricos que não poderiam ter sido alcançados de nenhuma outra maneira;
10 O livro Conhecimento Pessoal , escrito em 1958 por Polanyi, influenciou a Estrutura das Revoluções Científicas de Thomas Kuhn. Segundo Moleski, a descrição de mudanças na estrutura interpretativa de Polanyi se assemelha fortemente com a descrição de mudança de paradigmas de Kuhn (Moleski).
10
o praticante de uma ciência madura sabe com previsão razoável a que tipo de resultado pode chegar com a sua investigação, o que é uma condição favorável para detectar um problema de investigação que saia fora do esperado; quando falham repetidas vezes e cada vez mais, então um setor da comunidade científica depara com o que chamei de crise. Ao reconhecer que algo está fundalmentalmente errado na teoria com que trabalham, os cientistas tentarão articulações mais fundamentais da teoria do que as que eram admitidas antes. É típico, nos tempos de crise, encontrar numerosas versões diferentes da teoria paradigma; unicamente em situações desse gênero uma inovação fundamental na teoria científica não só é inventada, mas aceita.
Polanyi e Kuhn duelaram pelo direito de se denominarem “pai” do conceito de paradigma. Para Polanyi, “... a estabilidade do sistema naturalístico, ao qual aceitamos atualmente, se assenta na mesma estrutura lógica. Qualquer contradição entre uma noção científica particular e os fatos da experiência será explicada por outras noções científicas; existe uma reserva de possíveis hipóteses científicas prontas para explicar qualquer evento concebível. (...) Neste momento, somente desejo fornecer ilustrações para mostrar como, no interior da própria ciência, a estabilidade das teorias contra a experiência é mantida por uma reserva epicíclica que omite concepções alternativas enquanto germe...”. Polanyi continua dizendo que contradições nas concepções científicas correntes são normalmente denominadas anomalias e, estas, são as suposições mais a mão disponível pela reserva epicíclica de qualquer teoria. Polanyi ilustra como uma série de observações são consideradas cientificamente importantes em uma determinada época e em poucos anos passam a ser completamente desacreditadas, sem ao menos serem reprovadas ou realmente testadas, simplesmente porque a estrutura conceitual da ciência se alterou, tornando os fatos aparentemente desacreditados. Concluindo nesta seção do livro, Polanyi afirma que os “... filósofos tratam a coerência como critério de verdade, porém a coerência nada mais é do que um critério de estabilidade. (...) a atribuição da verdade em qualquer alternativa particular estável é um ato confidente, o qual não pode ser analisado em termos não compromissados” (Polanyi, 1958).
Identificamos dois pontos neste parágrafo que futuramente servirão de investigação em trabalhos futuros, neste âmbito da Mineração de Textos, que são:
11 germe e anomalias. O quanto ambos podem ser o mesmo? Não seriam desvios para o novo, alargando o conhecimento? Deixaremos isto para outra ocasião.
Evidencia se, assim, a existência de grupos sociais detentores de determinados tipos de conhecimentos. Polanyi e Kuhn possuem fortes influências no debate acerca da cumplicidade e dos métodos utilizados pela ciência enquanto comunidades sociais. Na concepção de Polanyi há um conhecimento tácito ditado pela comunidade científica de cada área do conhecimento, a qual cada cientista desta área busca se adaptar para não ser excluído. A análise de Polanyi mostra que cientistas são influenciáveis, submetendo se ao controle por sua comunidade de pares (Rosa, 2006). Influências, estas, que nos levam a questionar a possibilidade de identificar claramente tais pontos nos conteúdos escritos de determinados saberes.
Nossa intenção é investigar uma metodologia, através do uso de ontologias, como representação do conhecimento, para explicitar o quão um determinado grupo caminha na mesma direção e outros se afastam. É possível identificarmos na produção textual tal uniformidade imposta? Por outro lado, é possível que o conhecimento seja comunicado diminuindo a distância para com os especialistas?
De maneira objetiva, almejamos construir ontologias como representação do conhecimento, com o propósito de responder as duas questões do último parágrafo. A primeira, podendo abranger diferentes domínios específicos do saber ou dentro do mesmo domínio, identificando a distância entre os saberes e até mesmo entre cientistas, ficará para trabalhos futuros, a segunda, tentará nesta dissertação representar um conhecimento que permita ser comunicado e consultado por especialistas, generalistas e, principalmente, leigos.
Por fim, uma última observação sobre comunicar algo e a linguagem. Ao examinar a natureza do conhecimento e a natureza da pesquisa científica, Polanyi se concentra sobre como conhecer algo poderia ser comunicado. A linguagem teria um papel vital ao compartilhar o conhecimento e esta é uma das principais características da ontologia pragmática atual. À natureza humana, para Polanyi, existiria um conhecimento genuíno e de difícil transferência, o conhecimento tácito. Todo conhecimento tem uma componente tácita que coopera com uma componente explícita, como se fosse uma interação entre o pessoal e o formal. A visão de conhecimento de Polanyi se daria como um contínuo entre o tácito e o explícito. Como todo conhecimento inclui um grau do componente tácito, através desta gradação
12 altamente imbricada na linguagem, um especialista poderia comunicar algo acerca do conhecimento de sua área. Tal consciência tácita estaria de alguma maneira conectada com a realidade objetiva.
O pensamento de Polanyi sob a ótica de Grant (Grant, 2007), pode ser resumido diagramaticamente conforme a Figura 3.
Figura 3 Visão de Polanyi acerca do Conhecimento adaptado de (Grant, 2007)
Enfim, comunicar um conhecimento, explicitando o tácito, não deve se restringir às ocasiões entre mestre e discípulo. O conhecimento tácito, mais próximo do pessoal, deixando de ser inefável, somente partindo de um ato não consensual, ou seja, somente a partir da perspectiva da cabeça de um cientista.
Assim, a nossa principal motivação ganha forma ao aproximar distintas cabeças, representadas por seus conhecimentos a posteriori textuais e sistematizados por ontologias, possibilitando o alargar do conhecimento.
13
CAPÍTULO 3. da Concepção de Ontologias e Afins Ontologia tornou se um conceito explorado por diversas áreas dos saberes, até mesmo por disciplinas tão díspares para muitos, como Filosofia e Ciência da Computação. Porém esperamos que ao final da dissertação, encontremos uma porta aberta para a reconciliação entre Filosofia e Ciência.
3.1 de Ontologias e suas Definições O termo Ontologia tem sua origem em intenções filosóficas que remetem à Grécia Antiga, principalmente relacionada ao filósofo grego Aristóteles. Por outro lado, a partir da Inteligência Artificial, a atual arena que envolve as áreas de Representação do Conhecimento ( Web Semântica), Recuperação da Informação (Sistema de Buscas e Banco de Dados), Linguística Computacional (Processamento de Linguagem Natural) e Análise de Dados (Aprendizado de Máquina e Mineração de Textos), se apropria deste termo para um tratamento formal por computadores 11 .
3.1.1 da pergunta, O que é Ontologia ? Desde os primórdios da Metafísica, a ontologia se apresenta como a ciência do ser , daquilo que é e sendo, investiga as coisas em todas as áreas da realidade, ou seja, uma investigação em relação a seus tipos, estruturas, processos e relacionamentos. Aristóteles buscou a construção de uma classificação categorial exaustiva dos entes na realidade, na tentativa de fornecer respostas sobre as aparências e a configuração do Universo. Através de uma taxonomia dos entes na realidade, do microcosmo ao macrocosmo, Aristóteles acreditava ser possível apreender toda a realidade em apenas um sistema de categorias. Husserl, outro filósofo mais contemporâneo, buscava ontologias regionais que estruturavam um sentido do ser em diferentes domínios do conhecimento. Ao invés de uma única ontologia, as categorias poderiam ser aplicadas e especializadas cada vez mais em domínios mais específicos, mais restritos, criando várias específicas ontologias.
A classificação desejada deveria responder a seguinte questão: Quais classes de entidades são necessárias para uma descrição e explicação do que acontece no Universo? O Realismo está na base de qualquer ontologia. Filósofos como Kant, Frege, Russel e Wittgenstein consideravam que a estrutura da linguagem era uma chave para a estrutura da realidade e, que, a estrutura da realidade seria capturada sintaticamente por uma lógica, a Lógica de Primeira Ordem, empregada em algumas
11 Acreditamos em uma forma de aproximação entre Filosofia e “ Computadosofia” (o saber tratado por computadores), de modo a preencher as motivações desta dissertação, descritas na seção anterior.
14 ferramentas de ontologias atuais. Denotando por ‘ F’, o que de geral existe na realidade (universal) e ‘ a’,’b’,’c’, etc., o que seria individual, a realidade seria sintaticamente capturada por F(a) (conhecida como Fantologia 12 ) ou, ainda, pela relação do par ordenado de indivíduos, R(a,b) .
Assim, além de um formalismo lógico para apreender a realidade através da linguagem, o nosso tempo passou a classificar os conteúdos de documentos em linguagem natural. Ontologias, taxonomias e tesauros, elementos tratados pela Filosofia ou pela Biblioteconomia, passaram a circular no meio da construção de algoritmos computacionais. Tais algoritmos focavam no desenvolvimento de ferramentas poderosas no tratamento da informação, da documentação e, principalmente, na representação de conhecimento. Ainda se confunde organização do conhecimento como apenas uma classificação de documentos. Há de se admitir que por detrás do conceito de conhecimento e sua organização, existe um conteúdo mais profundo, tanto filosófico, como prático (Currás, 2004). Admitimos sim que a classificação de documentos é um passo importante na organização do conhecimento, contudo não se trata do processo inicial. Faz se necessário uma carga ontológica, na concepção filosófica, para que possamos um dia entender cognitivamente uma coleção textual orientada pelos saberes.
A ontologia que se pretende, vai além de um tesauro. Ao se admitir que uma ontologia se assemelhe a uma linguagem documental codificada e controlada, como um tesauro, comete se um erro de ordem estrutural. Enquanto um tesauro se inicia com uma ordenação de seus termos em hierarquias e relações semânticas e sintáticas, a ontologia constrói sua ordenação a partir de peculiaridades e propriedades de seus termos (Currás, 2004).
Historicamente, em 1993, no contexto da Inteligência Artificial, surge uma definição para ontologia, amplamente disseminada, em uma direção mais próxima da filosofia. Admitindo que o ato conceitual sobre um domínio específico é parte necessária para a aquisição de conhecimento, Thomas Gruber 13 define ontologia como uma especificação explícita de uma conceituação 14 (Gruber, 1993) . Um sistema
12 Fantolog y em inglês. 13 Praticamente, qualquer texto sobre ontologias irá citar a definição dada por Gruber. Tal definição é quase uma definição ubíqua. 14 No original temos conceptualization. Entendemos que conceituação é uma tradução aquém do significado desejado pelo autor, mas não nos estenderemos aqui e nem traduziremos como “conceitualização”. .
15 baseado em conhecimento, na proposta de Gruber, deve considerar o que “existe” como exatamente aquilo que pode ser representado. Em um determinado domínio, seu respectivo conhecimento deve ser representado através de um formalismo que possa remover ambiguidades frequentes no uso da linguagem natural. Pormenorizando a definição de Gruber e privilegiando o aspecto formal, Uschold e Gruninger (2004) tratam ontologia como uma especificação formal e explícita de uma conceituação compartilhada , entendendo:
• conceituação , como um modelo abstrato de um fenômeno do mundo onde pessoas identificam os conceitos relevantes deste fenômeno (restrito a um domínio); • especificação, como uma explicitação através de nomes e definições, visando o entendimento dos conceitos e relacionamentos do modelo abstrato em questão; • formal, como codificada em uma linguagem passível de tratamento por computadores; • compartilhada, como um propósito ao uso e reutilização da ontologia por diferentes aplicações e comunidades.
A pesquisa científica, modelando a realidade, tende a criar generalizações acerca de um fenômeno observado e busca ordens e regularidades de modo a reconhecer tal fenômeno em outra ocasião, com alguma coerência lógica. Nestes modelos, essenciais para a conceituação e especificação , surgem 3 (três) noções importantes:
1. Universais; 2. Particulares e Instâncias; 3. Relacionamentos.
Os universais garantem a abstração e a estrutura filosófica da realidade, permitindo o reconhecimento de objetos posteriormente. Enquanto os objetos particulares existem em um determinado tempo e um determinado lugar, os universais não possuem tempo e lugar fixos, estão em todos os tempos e todos os lugares. O papel da pesquisa científica é investigar a natureza dos universais, instanciados por entidades ou elementos de diferentes domínios do saber, seja a Biologia, a Química ou qualquer outra área da ciência.
16
Os particulares, por sua vez, estando no espaço (lugar) e no tempo, além de sua finitude, dependem 15 de outros elementos ou universais para serem instanciados. Assim sendo, toda ontologia deverá representar o que de essencial estrutura um determinado saber, ou seja, deve ser composta de universais acrescida de instâncias destes universais.
Os universais são explicitados nas ontologias através de classes (ou conceitos para nosso objetivo). Classes também são entidades. Uma classe é uma coleção de particulares referenciados por um termo geral, que se aplica a todos os membros da classe. Todo particular aplicável a este termo geral será membro da dita classe. Todos os universais são classes, porém nem toda classe será um universal. É necessário ter em mente que uma ontologia se propõe a representar e divulgar conhecimentos e quando focada para reuso, podem surgir classes como ´mulheres africanas de mais de 60 anos com Aids´ , mesmo sem um universal que a corresponda. Tais classes são ditas extensões de universais.
A terceira noção se refere aos relacionamentos. Toda hierarquia de termos, no sentido ontológico, é constituída de relações entre os termos. Uma taxonomia é uma hierarquia de termos onde temos apenas uma única relação, que é a relação que obedece ao critério lógico adotado para sua construção. Contudo uma ontologia é composta por n relações, a saber: relações entre universais, relações entre universais e instâncias e, ainda, relações entre instâncias. Tomemos o elemento químico Hidrogênio. Podemos analisá lo a partir da natureza do universal Hidrogênio, dizendo o que é o Hidrogênio, pelo viés de sua estrutura, sua valência, etc., ou seja, conhecê lo por relações taxonômicas . Todavia, ao analisarmos o Hidrogênio se relacionando com outros universais da tabela periódica, podemos entendê lo melhor (Spear, 2006), com uma compreensão ampliada. Este último tipo de relacionamento é conhecido como relações não taxonômicas .
O Hidrogênio não se conecta com qualquer elemento da tabela periódica, existem restrições. Os termos, em uma ontologia, terão suas definições e relações restringidas por algum tipo de formalismo lógico. Este formalismo será dado, na maioria das ocasiões, pela Lógica de Primeira Ordem, como dissemos anteriormente. Além de efetuar inferências para obtenção de relacionamentos não observados inicialmente, o uso de restrições ou regras formais permitem transformar os termos
15 Este caráter de dependência é um dos primeiros traços da similaridade entre saberes.
17 canônicos iniciais em uma “imagem” mais refinada da realidade tratada. Uma vez que as regras também encerram em si conhecimentos, a soma total de conhecimentos em uma ontologia será dada pela união de seus termos e de suas regras inferenciais (Grenon et al ., 2003).
Um tipo clássico de relação e que existirá em qualquer ontologia é a relação is_a 16 (relação taxonômica) . Algo, um universal, será alguma coisa, um outro universal, explicitado por esta relação. Sabendo que um “bóson é uma partícula elementar”, teremos que os termos “ bóson” e “partícula elementar ” farão parte de uma ontologia se relacionando pela relação is_a . Outra clássica relação, não taxonômica, é a relação part_of (parte de). Um pulmão não é um José , porém um pulmão é parte de José . As relações não possuem restrições quanto a sua quantidade, dependem diretamente do engenheiro de ontologias. Relações como é_adjacente, é_contínuo, possui_4patas, etc . podem surgir em qualquer ontologia biológica, por exemplo. Este grau de liberdade na escolha de termos e de relações acarretam problemas relacionados à compatibilidade e granularidades entre ontologias, visto que dentro de um mesmo domínio específico, poderão surgir várias ontologias construídas por mentes diferentes. Contudo, não nos ateremos a estes problemas.
3.1.2 dos Tipos de Ontologias Tipificando as ontologias, temos 4 (quatro) tipos distintos: Ontologia de Alto Nível (ou Superior) Ontologia de Domínio Ontologia de Tarefas Ontologia Aplicada
A ontologia de alto nível deverá conter um conjunto de universais de alta expressividade, de modo a se tornar a espinha dorsal de qualquer ontologia. Ao dizermos qualquer ontologia , isto implica em um conjunto de universais tidos como categorias , no sentido do termo técnico aristotélico ou kantiano.
16 Estamos usando a notação em inglês, porém poderíamos ter usado é_um .
18
Figura 4 – Primeira Ontologia da História: Porfírio sobre as Categorias de Aristóteles (séc.III) extraído de (Smith, 2008)
A primeira ontologia da história surge no século III (Figura 4) classifica ndo as categorias em essência, quantidade, qualidade, relativo (relação),(relação), lugar, tempo, posição, possuindo , agindo e sofrendo . Tais categorias são consideradas como fundamentais em qualquer representação do conhecimentoconhecimento acerca da realidade, ou seja, as mais significativas generalizações.
Existem algumas ontologias de domínios superiores candidatas à ontologia com a letra “O” em maiúsculo. Ora, c omo construir uma ontologia dita neutra de interessesinteresses e que sirva de esqueleto comum a todas as ontologias ? Como integrar, a partir do Perspectivismo, diferentes ontologias de uma mesma área de atuação? Perguntas em aberto.
Citando algumas ontologias de alto nível, temos:
SUMO ( Suggested Upper Merged Ontology ),
A ontologia SUMO, iniciativa do IEEE ( Institute of Electrical and Electronics Engineers ), uma das maiores ontologias formais pública, co ntem cerca de 20.000 termos e 70.000 axiomas ao combinar todas as ontologias de domínio . Construída com a linguagem KIF ( Knowledge Interchange Format ), se
19 concentra nas áreas de pesquisa, de buscas, de linguística e de mecanismos de raciocínios (SUMO, 2011);
Sowa Diamond
A ontologia desenvolvida por John Sowa, inspirada na lógica simbólica dos filósofos Charles Sanders Peirce e Alfred North Whitehead, se apresenta como um estudo das categorias de coisas que existem ou possam existir em um determinado domínio. A ontologia é definida como um catálogo de tipos de coisas, assumidas como existentes em um domínio de interesse (D), a partir da perspectiva de uma pessoa usando uma linguagem (L) ao discorrer sobre o domínio ( D). Os tipos representam predicados, termos, conceitos e relações de L ao discorrer sobre D. Sowa comenta que uma lógica não interpretada, como o cálculo de predicados, grafos conceituais ou KIF se apresentam como ontologicamente neutras, porém por si só não dizem nada sobre nada. A combinação entre uma lógica com uma ontologia proporciona à linguagem uma expressividade, principalmente através de relacionamentos sobre entidades de um domínio de interesse (Sowa, 2011).
DOLCE (D escriptive Ontology for Linguistic and Cognitive Engineering )
Desenvolvida sob orientação filosófica aristotélica e voltada para a Web Semântica , tem uma tendência cognitiva, pois pretende capturar as categorias ontológicas que subsumem a linguagem natural e o senso comum humano. Esta ontologia é considerada como uma ontologia de particulares, ou seja, entidades sem instâncias, ao contrário dos universais que possuem entidades com instâncias. Diferentemente das demais, parte do princípio que um módulo único e monolítico não reflete diferentes propósitos, portanto se baseia em uma biblioteca de ontologias fundamentais ( WonderWeb Foundational Ontologies Library) , minimizando incompatibilidades semânticas (Masolo,2011).
BFO (Basic Formal Ontology ),
A ontologia superior BFO, criada pelo instituto IFOMIS ( Institute for Formal Ontology and Medical Information Science ), desenvolvida sob orientação filosófica aristotélica, sobrepondo as ontologias DOLCE e SUMO, é formalizada pela Lógica de Primeira Ordem. Diferentemente das anteriores, a ontologia BFO é focada em prover uma genuína ontologia de alto nível, servindo como esqueleto ontológico a qualquer ontologia de domínio na área científica.
20
Diferencia se por não conter termos físicos, químicos, biológicos ou qualquer outro termo que possa conflitar com termos de um domínio científico específico (BFO, 2011).
Para termos uma pequena ideia sobre ontologias de alto nível, citaremos a ontologia BFO, amplamente utilizada na área de pesquisa biomédica nos Estados Unidos. Esta ontologia é composta de duas perspectivas ontológicas, SNAP (Figura 5) e SPAN, visando representar a realidade espaço temporal, e se desenvolve a partir de 3 (três) dicotomias, a saber: entidades independentes e dependentes, continuantes e ocorrentes 17 , universais e particulares.
Não nos aprofundando em todas as dicotomias, descrevemos rapidamente a segunda dicotomia. Esta dicotomia (continuantes e ocorrentes) trata do modo como as entidades existem no tempo. Algumas entidades existem de modo contínuo no tempo, mantendo suas identidades independentes de mudanças temporais, e persistem sendo o que são em todos os instantes do tempo em que existem. Imaginemos uma série temporal de uma entidade, em qualquer ponto desta série iremos reconhecer a existência da entidade em questão. Tais entidades são ditas continuantes. A Terra, você, uma bactéria, o vermelho, são exemplos de continuantes. Encontramos em qualquer momento toda a bactéria. Mesmo que você perca todos os seus cabelos, continuará sendo você.
Os continuantes são constituídos de partes espaciais , como uma bactéria é constituída de membrana, núcleo e citoplasma, tudo ao mesmo tempo (Smith, 2008). Por outro lado, algumas entidades não possuem um determinado ponto em que estejam plenamente presentes. São entidades que se desdobram ao longo do tempo como processos, eventos, atividades e mudanças; ocorrem no tempo e se manifestam em lapsos temporais, em fases. Tais entidades são ditas ocorrentes . A reprodução de uma bactéria, o pouso de um avião, a passagem de um furacão, o seu sorrir. Os ocorrentes são constituídos de partes temporais , são entidades quadridimensionais.
Muitos admitem que todas as entidades deveriam ser vistas como entidades quadridimensionais (Jansen, 2008). Jansen exemplifica: “Sócrates e sua caminhada exibem dois modos distintos de existência; enquanto a caminhada é claramente um ocorrente, Sócrates (nele mesmo) também é claramente um continuante
17 Os termos originais em inglês são continuants e occurrents , optamos para os dois termos por neologismos que identifiquem agentes.
21 tridimensional”. Para darmos cont a da realidade necessitamos tanto de continuantes como de ocorrentes .
Figura 5 – Ontologia SNAP
As ontologias construídas a partir do esqueleto BFO são focadas exclusivamente em atividades canônicas, ou seja, relacionadas ao cotidiano de laboratórios científicos, contendo apenas termos da pesquisa prática (principalmente na área de Biologia). Partem de porções das ontologias SNAP ( Figura 5) e SPAN, e seguem a mesma inspiração metodológica utilizada na construção de BFO , conforme a Figura 6 (Smith, 2008).
Figura 6 – Relações Primitivas de um Recorte de BFO
22 Evidencia se, assim, uma enorme complexidade e abrangência quando se fala em ontologias de alto nível. Muitos questionam este tipo de ontologia, apontando as como perda de tempo, preferindo se concentrar em ontologias ditas “mais leves”, focando em uma mínima estrutura terminológica (por vezes apenas uma taxonomia) que atenda as necessidades de uma comunidade específica (Masolo et al ., 2011).
Conseguintemente surgem as ontologias de domínio. Uma vez determinado o recorte da realidade (uma determinada área do saber científico), o procedimento para construção de uma ontologia de domínio pode ser análogo às ontologias de alto nível ou de maneira menos rigorosa, seguindo alguma metodologia menos geral e abstrata (conforme veremos na seção 3.4). A ontologia de domínio deverá ser um sistema de termos hierarquizados e agrupados a partir de suas propriedades e relações, de maneira a caracterizar as entidades de um determinado domínio específico. A generalidade não está afastada da ontologia de domínio, porém se restringirá a uma generalidade específica de um determinado saber.
Por fim, as Ontologias de Tarefas descrevem conceitos que são específicos de uma tarefa, como sintomas para a tarefa de diagnóstico médico a as Ontologias Aplicadas são consideradas de menor nível de abstração e combinam a Ontologia de Domínio e a de Tarefas, estendo as com conceitos mais refinados.
3.1.3 das Linguagens Formais de Ontologias Embora a noção de ontologias seja independente da Internet, as ontologias passaram a ter um papel especial na arquitetura da Web Semântica . Atualmente é possível construir uma ontologia e imediatamente disponibilizá la na Internet como um site de conhecimento (Mika, 2007). O uso de ontologias em máquinas não tem como intenção apenas o seu reuso e compartilhamento na Internet, mas sim que a mesma seja interpretada por máquinas, ou seja, que possua um forte entendimento semântico. Diversas técnicas surgiram para o tratamento de termos de modo a tratá los de maneira controlada.
O Espectro Ontológico (Figura 7) de Leo Obrst (Obrst, 2003) mostra, ao longo do tempo, o crescimento da riqueza semântica e da complexidade nas linguagens lógicas adotadas para expressar ontologias.
23
Figura 7 – Espectro Ontológico de Leo Obrst
Em decorrência do avanço da Web Semântica , linguagens voltadas para ontologias foram projetadas e recomendadas pela World Wide Web Consortium (W3C), tais como: Resource Description Framework (RDF) e Web Ontology Language (OWL). Ambas desenvolveram mecanismos para reconhecimento de termos e relações em ontologias utilizando identificadores globais únicos (URI) para a Internet. Na linguagem RDF, expressões são formadas através de declarações conhecidas como triplas , na forma (sujeito,predicado,objeto). O sujeito da declaração necessita ser um URI ou um quantificador existencial da linguagem, o predicado necessita ser um URI e o objeto pode ser um URI, um quantificador existencial da linguagem ou um conjunto de caracteres. Por sua vez, a linguagem OWL foi projetada para adicionar construtores da Lógica de Descrição, (Description Logic DL) à RDF, aumentando significantemente a expressividade da linguagem RDF. A linguagem OWL possui por 3 (três) versões ( Lite, DL e FULL ), se diferenciando pelo aumento de expressividade
(OWL Lite ⊆ OWL DL ⊆ OWL Full ). A DL é um conjunto de linguagens para representação do conhecimento, baseadas em uma semântica formal de acordo com a Lógica de Primeira Ordem.
3.2 das Considerações sobre Mineração de Textos ( Text Mining ) A estratégia adotada nesta dissertação para a construção da Ontologia de Domínio Fractal terá as técnicas de Mineração de Textos como subsidiárias das informações necessárias para tal tarefa. Diferentemente da confiabilidade das origens das informações utilizadas nas técnicas de Mineração de Dados, onde se é possível obter aplicações bastante efetivas, gerando dados com alto grau de confiança, a Mineração de Textos parte de uma coleção de dados não estruturados 18 . Nem sempre
18 Embora algumas coleções de textos possam ter algum tipo de estruturação, como bases em XML, nesta dissertação trabalharemos exclusivamente com textos não estruturados.
24
é possível retirar as inconsistências de dados sem uma estruturação definida, o que acarreta na construção de um modelo que pode ser considerado impreciso por muitos (Konchady, 2006). Contudo, mesmo com tal imprecisão, é possível se obter bons resultados ao entendermos alguns pontos cruciais que distinguem Mineração de Textos, Recuperação da Informação ( Information Retrieval – IR) e Processamento de Linguagem Natural (PLN).
Mineração de Textos ainda é um conceito relativamente novo e que não possui uma definição estreita. Evidencia se como um conjunto de técnicas para manipulação e obtenção de informações sobre textos, que perpassam pela Inteligência Artificial, Estatística, Teoria da Informação e, principalmente, das pesquisas em Recuperação da Informação ( Information Retrieval – IR) e Processamento de Linguagem Natural (PLN).
As pesquisas sobre Recuperação da Informação, iniciadas em meados de 1960 com a chegada dos PC’s conectados a computadores de grande porte, se sofisticaram no sentido de encontrar informações em base de dados textuais. O modelo de busca e recuperação da informação a partir de palavras chaves ainda é amplamente utilizado nos atuais buscadores na Web . Palavras simples (unigramas), compostas por duas palavras (bigramas) ou por n palavras ( n gramas) são utilizadas para busca de documentos relevantes. Este aumento no número de palavras nas buscas impôs um mínimo uso de linguagem natural ao formular consultas baseadas em perguntas, do tipo Qual a capital do Brasil?
Por outro lado, o Processamento de Linguagem Natural surgiu como um sub tópico da Inteligência Artificial, ao idealizar máquinas que pudessem se comunicar em linguagem natural com seres humanos. Neste caminho, a Inteligência Artificial se deparou com dois grandes problemas: alcançar o entendimento da linguagem natural na entrada e gerar uma saída compreensível em linguagem natural. O primeiro problema continua a não ter uma solução trivial. Contudo, “em vez de um profundo entendimento da linguagem, abordagens mais rudimentares obtiveram sucesso em tarefas específicas. O Processamento de Linguagem Natural poderia ser utilizado como um entendimento da análise ou síntese de textos e não necessariamente um entendimento dos textos” (Konchady, 2006). Assim sendo, a Recuperação da Informação e o Processamento de Linguagem Natural passaram a compartilhar algoritmos e métodos estatísticos, juntamente com a ajuda de dicionários léxicos, para responder questões mais elaboradas. Embora estas sofisticadas técnicas estocásticas
25 derivem seus resultados através de uma análise sintática e estatística de palavras (principalmente substantivos), o contexto semântico dos textos não seria capturado. Muitos ainda consideram que estes métodos estatísticos parecem ser inadequados para extração de um conhecimento contextual, porém para determinados propósitos são razoavelmente eficientes (Li et al ., 2009).
A Mineração de Textos possibilitou a construção de ferramentas que iriam além de um simples envio de questões a um buscador, permitiu que a resposta de tais buscadores pudesse ser manipulada no sentido de encontrar padrões, tendências e relacionamentos em uma base textual. A Mineração de Textos não substitui a Recuperação de Informação, tampouco o Processamento de Linguagem Natural, mas possibilita, juntamente com o uso de Ontologias, a construção de ferramentas e estratégias eficientes na produção de informação a partir de uma coleção de textos (principalmente de forma contextual).
3.3 de Técnicas de Mineração de Textos Úteis à Construção de Ontologias Tendo como ponto de partida a análise de eventos linguísticos de uma base textual, o Corpus, ao invés de uma tentativa de entendimento de seus textos, a eficiência dos resultados que adotaremos para esta dissertação advém de um modelo de probabilidade de alguns eventos linguísticos, como: ocorrência de palavras, co ocorrência de palavras, distribuição de probabilidades, informações mútuas, etc. As saídas deste primeiro modelo produzem uma redução na complexidade dos textos para a tarefa seguinte, tarefa de extração de palavras ou termos 19 representativos. Esta é considerada a tarefa mais essencial, apontando os mais prováveis termos candidatos a conceitos de uma ontologia de domínio. Esta transformação dos textos plenos para termos representativos, dependendo da técnica e ferramenta empregadas, permite um ganho substancial no custo computacional. Uma vez de posse dos termos relevantes ou representativos de uma base textual, estes são analisados derivando medidas e análises linguísticas, como veremos mais adiante.
3.3.1 da Importância de Substantivos e a Extração de Termos Obviamente todo texto possui palavras dispostas segundo uma ordem ou uma sintaxe, de modo que qualquer humano instruído possa entender e compreender o significado e/ou a informação que se deseja comunicar. Ao entendimento humano não
19 Não faremos distinção entre termos e palavras neste momento. Adotaremos conceitos apenas aos termos da ontologia de domínio final.
26
é possível juntar em uma sequência, qualquer combinação de palavras. As palavras possuem funções bem definidas, umas são palavras de contexto (substantivos, verbos, adjetivos e advérbios), enquanto outras são palavras funcionais (conjunções, pronomes, preposições e delimitadores). Estas palavras se relacionam sintaticamente gerando sentenças.
As palavras de contexto, geralmente, representam pessoas, animais, ideias, coisas ou lugares. Nas sentenças, as palavras funcionais referenciam as palavras de contexto a um contexto (Konchady, 2006). Esta organização gramatical das palavras, juntamente com a criação de vocabulários e dicionários, proporciona a riqueza semântica que o ser humano instruído dispõe para comunicar conhecimento. No entanto, estamos diante de uma tarefa: representar o conhecimento de um domínio específico a partir de uma combinação de conhecimentos específicos previamente escritos por especialistas, com o uso de computadores e sem uma leitura humana, ou seja, uma tarefa a partir de textos não estruturados.
Como dito na seção anterior, optaremos por um modelo de distribuição de probabilidades de eventos linguísticos 20 . Portanto, em um primeiro momento, haverá uma desconstrução das sentenças, objetivando reter automaticamente termos que possam significar algo a um especialista e que possam gerar automaticamente (sem um especialista) possíveis relacionamentos com outros termos.
A técnica mais simples para extração de termos, revelando conceitos em um Corpus, é a contagem da frequência dos termos. Nesta técnica todos os termos possuem a mesma importância antes da busca de termos relevantes. Em geral, tal abordagem advém do pressuposto que um termo frequente, em um conjunto de textos de um domínio específico, indica um conceito relevante (Cimiano et al ., 2009). Esta prática, de atribuir com um peso maior as palavras com ocorrências frequentes, foi implantada no início das pesquisas de Recuperação da Informação (Salton et al ., 1983). Com o decorrer destas pesquisas, alguns autores ( (Broglio et al ., 1995); (Baeza Yates et al ., 1999) ) argumentaram que substantivos representavam a maior parte dos teores semânticos de um texto, em relação aos verbos, adjetivos ou
20 Não iremos mencionar tarefas clássicas da Mineração de Textos, como Stemming (redução de palavras à suas respectivas raízes etimológicas), Parts of Speech (POS, classificação das palavras de acordo com categorias sintáticas) ou Stop Words (palavras que não agregam conhecimento significativo a um contexto selecionado). Consideramos que tais tarefas estão embutidas nos softwares utilizados e, apesar de suas relevâncias, não terão um destaque maior para esta dissertação.
27 advérbios (Rezgui, 2007). Consequentemente, o desenvolvimento de métodos baseados em medidas ponderadas dos possíveis substantivos relevantes, como Tf IDF (term frequency inverse document frequency ), em 1988, se mostraram mais eficientes do que a simples contagem de frequências.
A comunidade de linguística computacional continuou a explorar outras técnicas para extração de termos, gerando outras medidas sofisticadas. O trabalho de Frantzi, et al . (1999) considera que não somente a frequência de termos deve ser considerada, mas também o fato que termos podem ser aninhados uns aos outros, acarretando em um tratamento de vizinhança contextual e originando uma medida interessante, C value/NC Value (Cimiano et al ., 2009). Outras medidas e técnicas surgiram para extração de termos relevantes de uma coleção textual, contudo ainda não há um entendimento claro sobre que medidas funcionam melhor para determinadas aplicações e propostas (Cimiano et al ., 2009).
3.3.1.1 do Método Tf-IDF (Term frequency-Inverse Document Frequency) O método baseado apenas na frequência de um termo para extração de termos relevantes considera que todos os termos possuem igual importância antes do cálculo da frequência. Por vezes, tais termos (os frequentes) não são relevantes aos olhos de um especialista de domínio específico. Por outro lado, o método Tf IDF atenua o efeito de termos que ocorrem frequentemente em uma coleção. A ideia por trás deste método é reduzir o peso ou a importância de termos frequentes, por um fator que aumenta com suas respectivas frequências ao longo da coleção de documentos.
A fórmula a seguir é conhecida como Tf IDF ( (Salton et al ., 1988); (Baeza Yates et al ., 1999)), onde o peso calculado (Equação 1 ), para um termo sobre um , documento é dado por:
(Equação 1) , ,
28
,onde:
representa a ocorrência normalizada do termo no documento , , calculado pela equação: