Ontology Repository and Ontology-Based Services – Challenges, Contributions and Applications to Biomedicine & Agronomy Clement Jonquet
Total Page:16
File Type:pdf, Size:1020Kb
Ontology Repository and Ontology-Based Services – Challenges, contributions and applications to biomedicine & agronomy Clement Jonquet To cite this version: Clement Jonquet. Ontology Repository and Ontology-Based Services – Challenges, contributions and applications to biomedicine & agronomy. Web. Université de Montpellier, 2019. tel-02133335 HAL Id: tel-02133335 https://tel.archives-ouvertes.fr/tel-02133335 Submitted on 17 May 2019 HAL is a multi-disciplinary open access L’archive ouverte pluridisciplinaire HAL, est archive for the deposit and dissemination of sci- destinée au dépôt et à la diffusion de documents entific research documents, whether they are pub- scientifiques de niveau recherche, publiés ou non, lished or not. The documents may come from émanant des établissements d’enseignement et de teaching and research institutions in France or recherche français ou étrangers, des laboratoires abroad, or from public or private research centers. publics ou privés. HABILITATION A DIRIGER DES RECHERCHES (HDR) Spécialité Informatique École Doctorale Information, Structures, Systèmes Université de Montpellier ONTOLOGY REPOSITORY AND ONTOLOGY-BASED SERVICES Challenges, contributions and applications to biomedicine & agronomy Manuscript v4.0 – May 2019 Clement Jonquet (ORCID: 0000-0002-2404-1582) Jury (defense May 28th 2019) Michel Dumontier (professor), Maastricht University (reviewer) Nathalie Aussenac-Gilles (DR CNRS), CNRS, Toulouse (reviewer) Mathieu D'Aquin (professor), National University of Ireland, Galway (reviewer) Fabien Gandon (DR INRIA), INRIA Sophia Antipolis (examiner) Juliette Dibie-Barthélemy (professor), AgroParisTech, Paris (examiner) Pascal Poncelet (professor), University of Montpellier (examiner) Mark A. Musen (professor), Stanford University (invited) Stefano A. Cerri (prof. emeritus), University of Montpellier (invited) Laboratory of Informatics, Robotics, and Microelectronics of Montpellier (LIRMM), University of Montpellier & CNRS, France 2 Ontology Repository and Ontology-Based Services Abstracts Abstract With the explosion of the number of ontologies and vocabularies available in the semantic web, ontology libraries and repositories are mandatory to find and use them. Their functionalities span from simple ontology listing with metadata description to rich platforms offering various advanced ontology-based services: browse, search, visualization, metrics, annotation, recommendation, data access, etc. Studying ontology repositories opens then a wide spectrum of informatics research questions in areas such as knowledge representation, semantic web, data integration, natural language processing, ontology alignment and more. Ontology repositories are usually developed to address certain needs and communities. BioPortal, the ontology repository built by the US National Center for Biomedical Ontologies is the most important resource in biomedicine. It relies on a domain independent open technology that we have contributed to build (at Stanford) and extensively reused and extended for our research (at University of Montpellier) and applications to biomedicine and agronomy. In this manuscript, we present and discuss six high level challenges for ontology repositories and services: (i) standardize and extend metadata used to describe ontologies and use these metadata to facilitate ontology evaluation, identification and selection; (ii) multilingualism, which requires rethinking ontology repositories to embrace (and encourage) the multilingual semantic web; (iii) all issues related to ontology alignment, not just the automatic generation of mappings, but also their extraction, storage, validation, etc., (iv) the design of better and new generic ontology-based methods especially for processing free text data, (v) the use of ontologies for semantic annotations & linked data; and finally, (vi) scalability & interoperability of the different semantic resources management platforms. For each challenge, we describe and point to results obtained in the context of our ontology repository projects over the last 12-years, especially the NCBO, SIFR, PractiKPharma and AgroPortal projects. We believe our results illustrate potential solutions to move forward in this domain of research. Keywords Ontologies, ontology libraries & repositories, semantic web, ontology metadata, ontology services, ontology- based services, ontology selection, ontology alignment, ontology enrichment, terminology extraction, semantic annotation, semantic indexing, linked data. Résumé L'explosion du nombre d'ontologies et de vocabulaires disponibles dans le web sémantique rend les portails d'ontologies obligatoires pour trouver et utiliser ces ressources. Leurs fonctionnalités vont de la simple liste d’ontologies décrites avec quelques métadonnées, à des plateformes riches et offrant divers services : navigation, recherche, visualisation, métriques, annotation, recommandation, accès aux données, etc. L’étude des portails d’ontologies ouvre ainsi un large spectre de questions de recherche en informatique dans des domaines tels que la représentation des connaissances, le web sémantique, l’intégration de données, le traitement du langage naturel, l’alignement d’ontologies, etc. Les portails d'ontologies sont généralement développés pour répondre à certains besoins et communautés. BioPortal, le portail d’ontologies construit par le US National Center for Biomedical Ontology est la ressource la plus importante en biomédecine. Il s'appuie sur une technologie ouverte indépendante du domaine que nous avons contribué à créer (à Stanford) et largement réutilisé et étendu pour nos recherches (à l'Université de Montpellier) dans nos applications en biomédecine et agronomie. Dans ce manuscrit, nous présentons et discutons six grands défis pour les portails d'ontologies et les services qui y sont liés: (i) normaliser et étendre les métadonnées qui décrivent les ontologies et utiliser ces métadonnées pour faciliter l'évaluation, l'identification et la sélection des ontologies; (ii) le multilinguisme, qui nécessite de repenser les portails d'ontologies pour adopter (et encourager) le web sémantique multilingue; (iii) toutes les 3 HDR – Clement Jonquet questions liées à l'alignement des ontologies, pas seulement la génération automatique de mappings, mais aussi leur extraction, leur stockage, leur validation, etc. ; (iv) l’amélioration et la conception de nouvelles méthodes génériques basées sur des ontologies, en particulier pour le traitement des données textuelles ; (v) l'utilisation d'ontologies pour l’annotation sémantique et les données liées; et enfin (vi) le passage à l’échelle et l'interopérabilité des différentes plateformes de gestion de ressources sémantiques. Pour chaque défi, nous décrivons les résultats obtenus dans le cadre de nos projets sur les portails d'ontologies au cours des 12 dernières années, en particulier les projets NCBO, SIFR, PractiKPharma et AgroPortal. Ces résultats illustrent des solutions possibles pour ce vaste domaine de recherche. Mots clés Ontologies, portail d'ontologies, web sémantique, métadonnées d'ontologies, services basés sur les ontologies et pour les ontologies, sélection d'ontologies, alignement d'ontologies, enrichissement d'ontologies, extraction terminologique, annotation sémantique, indexation sémantique, données liées. 4 Ontology Repository and Ontology-Based Services Contents Abstracts __________________________________________________________________ 3 Contents __________________________________________________________________ 5 Acknowledgments __________________________________________________________ 7 Chapter I. Prelude ________________________________________________________ 9 I.1 Organization of the manuscript________________________________________________ 9 I.2 Short biography ___________________________________________________________ 10 I.3 Research support and people involved _________________________________________ 11 I.4 Collaborations ____________________________________________________________ 13 Chapter II. Introduction ___________________________________________________ 15 Chapter III. Background ___________________________________________________ 19 III.1 Ontology libraries and repositories ____________________________________________ 19 III.2 Focus on the NCBO BioPortal ________________________________________________ 21 III.2.1 BioPortal, a “one stop shop” for biomedical ontologies _______________________________ 21 III.2.2 Reuse of the NCBO technology __________________________________________________ 22 III.3 Two collaborative ontology repository projects _________________________________ 23 III.3.1 Semantic Indexing of French Biomedical Data Resources (SIFR) _________________________ 23 III.3.2 AgroPortal: a vocabulary and ontology repository for agronomy ________________________ 25 Chapter IV. Challenges, propositions and results _______________________________ 29 IV.1 Challenge 1: Metadata, evaluation and selection ________________________________ 29 IV.1.1 Harnessing the power of unified metadata in an ontology repository ____________________ 30 IV.1.2 Metadata vocabulary for Ontology Description and Publication (MOD) ___________________ 34 IV.1.3 NCBO Recommender: a biomedical ontology recommender web service _________________ 35 IV.2 Challenge 2: Multilingualism _________________________________________________ 37 IV.2.1 A roadmap for making BioPortal multilingual _______________________________________ 38 IV.2.2 Multilingual mapping reconciliation between English-French biomedical