Extending Semantic Nets Using Concept-Proximity Reena Shetty

Extending semantic nets using concept-proximity Reena Shetty To cite this version: Reena Shetty. Extending semantic nets using concept-proximity . domain_other. École Nationale Supérieure des Mines de Paris, 2008. English. pastel-00005840 HAL Id: pastel-00005840 https://pastel.archives-ouvertes.fr/pastel-00005840 Submitted on 26 Feb 2010 HAL is a multi-disciplinary open access L’archive ouverte pluridisciplinaire HAL, est archive for the deposit and dissemination of sci- destinée au dépôt et à la diffusion de documents entific research documents, whether they are pub- scientifiques de niveau recherche, publiés ou non, lished or not. The documents may come from émanant des établissements d’enseignement et de teaching and research institutions in France or recherche français ou étrangers, des laboratoires abroad, or from public or private research centers. publics ou privés. Ecole Nationale Supérieure des Mines de Paris T H E S E pour obtenir le grade de DOCTEUR Discipline : Automatique, Informatique et Robotique Ecole Doctorale : présentée et soutenue publiquement par Reena T. N. Shetty Le 12 Novembre 2008 Enrichissement de réseaux sémantiques par la proximité de concepts Jury Rapporteurs : Bruno Bachimont, Enseignant-chercheur à l'UTC et Directeur Scientifique à l'INA Jean Charlet, Chercheur, Inserm U729/STIM, Ecole Centrale de Paris Examinateurs : Yves Rouchaleau, Professeur, Ecole des mines de Paris Marie-Thérèse Ménager, Direction programme ToxNuc-E, CEA Directeur : Joël Quinqueton, Directeur de thèse - Professeur, Université de Montpellier Encadrant : Pierre-Michel Riccio, Ingénieur de recherche, Laboratoire LGI2P / Ecole des Mines d’Alès Page 1 Je remercie Yannick Vimont, directeur du LGI2P, ainsi que la direction de l’Ecole des Mines d’Alès pour m’avoir permis de préparer cette thèse dans leur établissement. Je désire remercier sincèrement mon directeur de thèse, Joël Quinqueton, professeur au LIRMM de l’Université Montpellier II, dont les qualités sont nombreuses tant sur le plan scientifique que humain. Son don précieux de toujours ressortir les points positifs d'une situation complexe est l’une de ses grandes qualités. Je remercie mon encadrant de thèse, Pierre-Michel Riccio, Ingénieur de recherche, Laboratoire LGI2P / Ecole des Mines d’Alès. Je tiens aussi à remercier mes collègues Imane Anoir et Jean Villerd pour l'aide apportée dans le recueil initial des données et dans la validation de mon modèle. Je suis très sensible à la présence dans ce jury de Bruno Bachimont, Bruno Bachimont, Enseignant-chercheur à l'UTC et Directeur Scientifique à l'INA, Jean Charlet, Chercheur, Inserm U729/STIM, Ecole Centrale de Paris, Yves Rouchaleau, Professeur, Ecole des mines de Paris et Marie-Thérèse Ménager, Direction programme ToxNuc-E, CEA. Je remercie également les enseignants chercheurs, les secrétaires et l’ensemble du personnel du LGI2P pour l’ambiance inoubliable et l’esprit d’amitié. Merci aussi à mes collègues et amis Nicolas, et Fabien ainsi qu’à tous les autres qui se reconnaîtront ici. Merci enfin à mes parents, à mon mari, ma sœur , mon frère et à ma famille ainsi qu’à mes amis qui m’ont permis de me ressourcer à chaque retour dans Inde. Page 2 Résumé étendu Les dernières années ont vu le déferlement d’une vague d’information sous forme électronique, due à l’usage croissant du World Wide Web (WWW). Pour beaucoup, le World Wide Web est devenu un moyen essentiel pour fournir et rechercher de l’information, conduisant à une forte accumulation de données. La recherche sur Internet dans sa forme présente devient vite exaspérant car les données disponibles peuvent être superficielles et de formes très diverses. Les utilisateurs du Web en ont assez d’obtenir des ensembles gigantesques de réponses à leurs requêtes simples, ce qui les oblige à investir de plus en plus de temps à analyser les résultats à cause de leur grand nombre. Et alors de nombreux résultats s’avèrent non pertinents et les liens les plus intéressants restent en dehors de l’ensemble des résultats. Le Chapitre1 introduit la motivation de notre travail de recherche. L’une des principales explications concernant la difficulté à effectuer une recherche d’information efficace est que les ressources existantes sur le web sont exprimées sous une forme destinée à la compréhension humaine. En d’autres termes, ces données deviennent vite inutilisables et inexploitables par la machine et l’intervention humaine s’avère être nécessaire pour obtenir de bon résultats. Ainsi, l’un des principaux challenges envisagé par les utilisateurs du web, tel que les fournisseurs et les utilisateurs de données, est d’imaginer des outils intelligents ainsi que des théories autour de la représentation et le traitement des connaissances dans le but de créer des données exploitables par la machine. Le Chapitre 2 évalue et étudie les méthodes existantes et leurs limitations. Beaucoup de chercheurs ont déjà travaillé dans cette voie. La création du Web sémantique, basé sur le concept d’ontologie permet de rendre les données compréhensible par la machine. Le Web sémantique constitue l’une des solutions les plus intéressantes proposée par la communauté des chercheurs. L’objectif est de proposer une représentation intelligente des données qui soit exploitable par la machine. En d’autres termes, cette représentation doit Page 3 lui permettre d’avoir une meilleure « compréhension » des documents et d’améliorer ainsi la qualité de la recherche parmi l’information existante. L’accent est mis sur la réflexion nécessaire à la construction de la signification du concept relié aux réseaux pour la représentation des connaissances. L’idée est de tendre vers la production semi-automatique voire complètement automatique de résultats de grande qualité. Autrement dit, l’objectif est de minimiser l’intervention humaine est de maximiser la qualité des résultats obtenus. Récemment, le développement d’ontologies a gagné rapidement l’attention d’un grand nombre de chercheurs à travers le monde. Aussi, il n’existe pas de réel consensus sur la définition du concept d’ontologie. Le chapitre 3 présente la plate-forme ToxNuc-E et le positionnement de notre recherche autour de cette plate-forme. Etant donné l’importance pratique et théorique du développement d’ontologies, il n’est pas surprenant de retrouver un grand nombre de chercheurs, fervents et engagés dans ce domaine de recherche. Dans le cadre de notre travail de recherche nous proposons l’approche, dite ESN (« Extended Semantic Network ») qui représente une approche innovante dans le domaine de la représentation des connaissances et des ontologies. Contrairement aux approches classiques, basées sur les mots clés, l’approche ESN consiste à construire des réseaux en recherchant des ensembles d’associations entre les nœuds sémantiques et les relations de proximité sur TocNuc-E. Le Chapitre 4 précise le concept de Réseau de modélisation proximale, généré par des modèles mathématiques. L’idée de base de ESN est de trouver une représentation des connaissances et une méthode de construction d’ontologies qui soit efficace afin de surmonter les contraintes existantes inhérentes à la recherche d’information et aux problèmes de classification. Notre approche se décompose suivant deux phases. La première phase consiste à traiter une grande quantité d’information textuelle en utilisant des modèles mathématiques pour automatiser la construction d’ontologies évolutives. Cette phase de notre proposition donne comme résultat un réseau de mots. Celui-ci est calculé en utilisant des outils mathématiques venant de l’analyse de données et la Page 4 classification automatique. Ainsi, la création d’un réseau de proximité repose alors sur la proximité des mots dans un document. Le chapitre 5 étudie la modélisation des réseaux sémantiques et introduit un modèle de conception proposé par nous pour permettre efficace coût efficacité de la conception. Le Réseau sémantique est essentiellement un graphe orienté étiqueté permettant l'utilisation de règles génériques, de l'héritage, et de la représentation orientée objet. Il est souvent utilisé comme une forme de représentation des connaissances, où les concepts représentés par les noeuds sont connectés l'un à l'autre en utilisant les liens relationnels représentés par des arcs. Le Réseau sémantique est construit avec l'aide d'experts de la connaissance et la compréhension d'un domaine. Il est donc principalement construit par les hommes avec une très bonne précision. Le Chapitre 6 détaille le réseau sémantique étendu (Extended Semantic Network). La deuxième phase consiste à examiner attentivement et de manière efficace les différentes possibilités d'intégrer les informations obtenues à partir de notre modèle mathématique et à partir du modèle cognitif développé manuellement. Cette phase se base sur une méthode heuristique développée dans l’extension des réseaux et utilisant les résultats de la méthode mathématique. Cette phase se termine en considérant le modèle humain (développé manuellement) comme le point d’entré de notre réseau de concepts. L’idée principale est de développer une approche novatrice combinant les caractéristiques humaines et la théorie des concepts utilisée par la machine. Les résultats peuvent présenter un grand intérêt dans différents champs de recherche tels que la représentation des connaissances, la classification, l'extraction, le filtrage des données ainsi que dans la recherche sur le développement d’ontologies. Dans le cadre de ce travail de thèse, nous avons discuté et nous avons mis en lumière des méthodes

Load more