Thesis Reference
Total Page:16
File Type:pdf, Size:1020Kb
Thesis Precise information retrieval in semantic scientific digital libraries DE RIBAUPIERRE, Hélène Abstract When scientists are looking for information in document collections, they generally have a precise objective in mind. They try to answer specific needs such as finding the definition of a concept, checking whether an idea has already been tested, or comparing the scientific conclusions of several documents. To build better information system model it is important to understand the needs of scientists in terms of information and their seeking information behaviour. The contributions of this thesis are to a) offer a user model; b) propose a generic annotation model (SciAnnotDoc) for scientific documents; c) demonstrate that the annotation model is realistic enough to be used by both manual and automatic methods of annotation; d) build a faceted search interface (FSAD) and e) evaluate the model with scientists and show that the FSAD interface is more effective than a keywords-search, notably in terms of user preference, recall and F1 measure. Reference DE RIBAUPIERRE, Hélène. Precise information retrieval in semantic scientific digital libraries. Thèse de doctorat : Univ. Genève, 2014, no. SES 869 URN : urn:nbn:ch:unige-431654 DOI : 10.13097/archive-ouverte/unige:43165 Available at: http://archive-ouverte.unige.ch/unige:43165 Disclaimer: layout of this document may differ from the published version. 1 / 1 Precise information retrieval in semantic scientific digital libraries Hélène de Ribaupierre Direction de thèse: professeur Gilles Falquet FACULTÉ(DES(SCIENCES((ÉCONOMIQUES(ET(SOCIALES PRECISE INFORMATION RETRIEVAL IN SEMANTIC SCIENTIFIC DIGITAL LIBRARIES Thèse présentée à la Faculté des sciences économiques et sociales de l’Université de Genève Par Hélène de Ribaupierre pour l’obtention du grade de Docteure ès sciences économiques et sociales mention : Système d’Information Membres du jury de thèse : Prof. Gilles FALQUET, directeur de thèse, Université de Genève Prof. Giovanna Di MARZO SERUGENDO, présidente du jury, Université de Genève Prof. Fabio CRESTANI, Università della Svizzera italiana USI, Lugano Prof. Henning MÜLLER, Université de Genève et Institut informatique de gestion, HES-SO, Valais Thèse N° 869 Genève, le 1er décembre 2014 La Faculté des sciences économiques et sociales, sur préavis du jury, a autorisé l’impression de la présente thèse, sans entendre, par là, n’émettre aucune opinion sur les propositions qui s’y trouvent énoncées et qui n’engagent que la responsabilité de leur auteur. Genève, le 1er décembre 2014 Le vice-recteur Denis HOCHSTRASSER Impression d’après le manuscrit de l’auteur Precise information retrieval in semantic scientific digital libraries THÈSE présentée à la Faculté des sciences économiques et sociales de l’Université de Genève par Hélène de Ribaupierre Sous la direction de Prof. Gilles Falquet pour l’obtention du grade de Docteure ès sciences économiques et sociales mention systèmes d’information Membres du jury de thèse: M. Fabio CRESTANI, Professeur, Università della Svizerra Italiana Mme. Giovanna DI MARZO SERUGENDO, Professeure, présidente du jury M. Henning MULLER, Professeur, HES-SO Valais et Faculté de Medecine, Université de Genève Thèse n◦869 Carouge, le 1er décembre 2014 English Abstract When scientists are looking for information in document collections, or on the web, they generally have a precise objective in mind. Instead of looking for docu- ments "about a topic T ", they rather try to answer specific needs such as finding the definition of a concept, finding results for a particular problem, checking whether an idea has already been tested, or comparing the scientific conclusions of several documents. The first contribution of this thesis, is to understand better the needs of scientists in terms of information and their seeking information behaviour and to build a user model from these observations. The methodology used were interviews and a survey. One of the results was that scientists focus in chunks of texts (discourse elements) when they are seeking and reading scientific documents, and not at the entire document. The second contribution of this thesis is a generic annotation model for scientific documents using Semantic Web technologies (SciAnnotDoc model) based on the discourse elements that are most frequently used by scientists according to the user model: findings, hypothesis, definition, methodology and related work. The SciAn- notDoc model is based on four dimensions or facets: the metadata dimension, the conceptual dimension (terms and concepts), the discourse dimension and the rela- tionships dimension (relation between discourse elements). The different dimensions are modelled into separate ontologies. The third contribution of this thesis is an automatic annotation process based on these ontologies. We annotated automatically 1’410 document in gender studies with the SciAnnotDoc model using syntactic patterns to discover the discourse elements at the sentence level. The fourth contribution of this thesis is the evaluation of the annotation model with "real users". We built a faceted-search based (FSAD) on the four dimension- s/facets of the SciAnnotDoc model. The evaluation by scientists showed that they seem to prefer and find the results obtained using the FSAD more relevant and with a better recall than result provided by a keywords-search interface using a terms indexing. Keywords: Semantic publishing, Information retrieval, Ontology, Knowledge management Résumé en Français Lorsqu’ils effectuent des recherches de documents scientifiques ou techniques, les scientifiques ont des objectifs précis en tête. Avec l’augmentation des documents scientifiques disponibles aujourd’hui , répondre à ce besoin d’information est de plus en plus difficile pour les scientifiques que cela soit en termes de temps ou de détection des documents pertinents dans cet océan de littérature. Il devient donc de plus en plus important d’avoir de bon moteurs de recherche qui répondent aux besoins des scientifiques. Pour ce faire, nous avons d’abord mené des interviews et une enquête auprès de scientifiques pour comprendre plus précisément comment ils recherchent leurs informations et travaillent avec les documents trouvés. Nous avons observé que les scientifiques recherchent leurs informations dans des éléments de discours précis qui peuvent varier suivant la tâche qu’ils ont à effectuer, et non pas toujours dans le document en entier. A partir de ce modèle d’utilisateur, nous avons ensuite créé un modèle d’annotation (SciAnnotDoc) prenant en compte ces éléments de discours, de même que les différentes informations contenues dans le document scientifique. Ce mod- èle est composé de quatre dimensions ou facettes: les méta-données, la dimension conceptuelle (les termes et les concepts), la dimension discursive et les relations de citations ou de références entre les différents éléments de discours d’un documents scientifique. Le modèle a été implémenté en OWL et différentes ontologies ont été créées pour répondre aux différents besoins d’annotation des quatre dimensions. Dans une troisième phase, plusieurs méthodes d’annotation manuelle et automa- tique ont été évaluées. GATE a été choisi et utilisé pour annoter automatique- ment 1400 documents scientifiques en études genre. Des règles JAPE ont été créées basées sur la syntaxe grammaticale et des mots-clés pour détecter automatiquement les cinq éléments de discours (findings, définition, hypothèse, méthodes et travaux référencés). Finalement, ces annotations et l’efficacité d’un tel système d’annotation ont été évaluées avec des scientifiques. Une interface en facette (FSAD) basée sur les quatre dimensions du modèle d’annotation a été créée pour cette évaluation est comparée à un système de recherche par mots-clés. Les observations semblent montrer que les scientifiques préfèrent le système (FSAD) basé sur SciAnnotDoc et trouvent que les résultats obtenus sont plus utilisables et ont un meilleur taux de rappel que ceux fournis par le système de recherche par mot-clés. Mots-clés: Publication sémantique, Recherche d’information, Ontologie, Représentation des connaissances Acknowledgments Sorry for the English speaking people, but even if my thesis is in English I prefer writing my acknowledgements in French. Je remercie mon directeur de thèse et professeur Gilles Falquet, pour m’avoir donné la chance de me lancer dans une thèse en m’engageant sur un projet du Fond National1. Je le remercie pour ces merveilleuses heures passées à discuter de ma thèse, ou d’autres sujets autour d’un thé, sous un chêne ou encore sur un télésiège. Il m’a toujours encouragée à aller plus loin, même quand j’étais un peu découragée; à explorer d’autres pistes et à trouver mes propres chemins. Je le remercie aussi pour sa patience et ses conseils. Je remercie les membres de mon jury. Le professeur Fabio Crestani d’avoir accepté d’être membre de mon jury, et d’avoir lu et corrigé ma thèse; et de m’avoir donné de bonnes pistes de recherche future. Je remercie le professeur Henning Müller pour les mêmes raisons, de même que pour quelques conseils de skis, et de cueillette de champignons. Je remercie aussi ma présidente de jury la professeure Giovanna Di Marzo Seru- gendo pour avoir accepté de jouer ce rôle et pour ses conseils avisés. Je remercie Claudine Métral qui a eu la bonté de m’accueillir dans son bureau à l’ombre de ses plantes vertes pendant toutes ces années, et qui m’a donné de bons conseils, que ce soit sur ma thèse ou mon travail d’assistante, et avec qui j’ai eu de bons éclats de rire. Je remercie aussi Nizar Ghoula d’avoir bien voulu relire certains passages de ma thèse, et d’avoir été un collègue et ami sur qui j’ai pu m’appuyer pendant ces quelques années. Je remercie bien sûr le reste de l’équipe, mes collègues, les membres du CUI pour leurs point de vue et leur aide sur ma thèse. Marie-France mérite un remerciement particulier pour son soutien et sa patience avec certains de mes formulaires pas toujours bien remplis. Je remercie évidement ma mère pour tout, mais particulièrement pour sa relec- ture attentive de ma thèse, son aide et son soutien infaillible.