"Multi-Points of View Semantic Enrichment of Folksonomies"

"Multi-Points of View Semantic Enrichment of Folksonomies"

UNIVERSITÉ DE NICE - SOPHIA ANTIPOLIS ÉCOLE DOCTORALE STIC SCIENCES ET TECHNOLOGIES DE L’INFORMATION ET DE LA COMMUNICATION THÈSE pour obtenir le titre de Docteur en Sciences de l’Université de Nice - Sophia Antipolis Mention : INFORMATIQUE Présentée et soutenue par Nicolas MARIE Linked data based exploratory search Thèse dirigée par Fabien GANDON préparée à Alcatel-Lucent Bell Labs et à l’INRIA Sophia Antipolis soutenue le 12 décembre 2014 Jury : Rapporteurs : Pr. John Breslin - National University of Ireland Pr. Guy Melançon - Université de Bordeaux Dr. Harald Sack - Universität Potsdam Examinateur : Dr. Johan Montagnat - CNRS, Nice Sophia-Antipolis Directeur : Dr. Fabien Gandon - INRIA Sophia Antipolis Invité: Johann Daigremont - Alcatel-Lucent Bell Labs Á Évelyne et Olivier Acknowledgements Merci à Myriam Ribière et Fabien Gandon qui m’ont énormément appris, inspiré, épaulé, au-delà du professionnel, Merci à mes anciens stagiaires, que j’ai eu le privilège d’encadrer. Merci à Damien Legrand grâce à qui Discovery Hub existe aujourd’hui, et grâce à qui mes travaux ont pris un virage décisif vers la recherche exploratoire. Merci à Émilie Palagi qui m’a accompagné durant cette dernière année et qui a obtenu de précieux résultats d’évaluation donnant à la thèse sa complétude, Merci à mes amis et collègues Sameh Ben Fredj, Adrien Joly et Evangelos Kalampokis pour leur écoute et leurs conseils, Merci à Olivier Corby pour son attention, son aide infaillible et pour les nombreuses possibilités techniques qu’il a ouvertes. Merci à Gessica Puri, Alain Giboin et Florentin Rodio pour m’avoir permis de valider scientifiquement mon travail via leur expertise et leur participation active, Merci à Christine Foggia, Delphine Izanic, Fabienne Labrosse, Elisabeth Leloup et Xavier Andrieu pour leur assistance très appréciée, Merci à mes collègues de Wimmics: Catherine Faron-Zucker, Elena Cabrio, Serena Villata, Oumy Seye, Michel Buffa, Luca Costabello, Julien Cojan, Guil- laume Éréteo, Amine Hallili, Rakeb Hasan, Maxime Lefrançois et Zide Meng. Merci à mes collègues des équipes SocialComm, Multimédia et MathDyn d’Alcatel Lucent Bell Labs: Johan Stan, Jérôme Picault, Johann Daigremont, Yann Gasté, Karim Hebbar, Loretta Maag, Olivier Martinot, Julien Robinson, Lionel Natarianni, Patrick Legrand, Bruno Legat, Olivier Durécu, Sylvain Squedin, Philippe Jacquet, Alonso Da Silva, Gérard Burnside, Dimitrios Milioris, Lamine Lamali, Amira Alloum, The Dang et Olivier Leclerc, Merci à Caroline, Justine, Isabeau, Nathalie, Rodica, Criquette, Nenette, Jaja, Paco, Cédric, Choco, Gimousse, Frailloj, Matmaiz, Nico, Samousse et Yannick, Merci à mes amis de toujours: Anton, Bidou, Bigou, Bilou, Boudir, Chass, Garga, Gourbi, l’Américain, Roumi, Teutif, Tos, Magic Raymond et JP Marielle, Merci à mon frère, mes parents et à ma belle et grande famille, Merci à Claudia avant tout. Abstract The general topic of the thesis is web search. It focused on how to leverage the data semantics for exploratory search. Exploratory search refers to cognitive consuming search tasks that are open-ended, multi-faceted, and iterative like learning or topic investigation. Semantic data and linked data in particular offer new possibilities to solve complex search queries and information needs includ- ing exploratory search ones. In this context the linked open data cloud plays an important role by allowing advanced data processing and innovative interactions model elaboration. First, we detail a state-of-the-art review of linked data based exploratory search approaches and systems. Then we propose a linked data based exploratory search solution which is mainly based on an associative retrieval algorithm. We started from a spreading activation algorithm and proposed new diffusion formula optimized for typed graph. Starting from this formalization we proposed additional formalizations of several advanced querying modes in order to solve complex exploratory search needs. We also propose an innovative software architecture based on two paradigmatic design choices. First the results have to be computed at query-time. Second the data are consumed remotely from distant SPARQL endpoints. This allows us to reach a high level of flexibility in terms of querying and data selection. We specified, designed and evaluated the Discovery Hub web application that retrieves the results and present them in an interface optimized for exploration. We evaluate our approach thanks to several human evaluations and we open the discussion about new ways to evaluate exploratory search engines. Keywords exploratory search, semantic web, linked data, linked data based exploratory search system, DBpedia, semantic spreading activation, Discovery Hub, human evaluations Résumé Cette thèse s’intéresse à l’exploitation de la sémantique de données pour la recherche exploratoire. La recherche exploratoire se réfère à des tâches de recherche qui sont très ouvertes, avec de multiples facettes, et itératives. Les données sémantiques et les données liées en particulier, offrent de nouvelles pos- sibilités pour répondre à des requêtes de recherche et des besoins d’information complexes. Dans ce contexte, le nuage de données ouvertes liées (LOD) joue un rôle important en permettant des traitements de données avancés et des interac- tions innovantes. Nous détaillons un état de l’art de la recherche exploratoire sur les données liées. Puis nous proposons un algorithme de recherche exploratoire à base de données liées basé sur une recherche associative. A partir d’un algorithme de propagation d’activation nous proposons une nouvelle formule de diffusion optimisée pour les graphes typés. Nous proposons ensuite des formalisations supplémentaires de plusieurs modes d’interrogation avancée. Nous présentons également une architecture logicielle innovante basée sur deux choix de concep- tion paradigmatiques. D’abord, les résultats doivent être calculés à la demande. Deuxièmement, les données sont consommées à distance à partir de services SPARQL distribués. Cela nous permet d’atteindre un niveau élevé de flexibilité en termes d’interrogation et de sélection des données. L’application Discovery Hub implémente ces résultats et les présente dans une interface optimisée pour l’exploration. Nous évaluons notre approche grâce à plusieurs campagnes avec des utilisateurs et nous ouvrons le débat sur de nouvelles façons d’évaluer les moteurs de recherche exploratoires. Mot-clés recherche exploratoire, web sémantique, données liées, système de recherche exploratoire à base de données liées, DBpedia, activation propagation sémantique, Discovery Hub, évaluations utilisateurs La curiosité mène à tout: parfois à écouter aux portes, parfois à découvrir l’Amérique. José Maria Eça de Queiros Contents 1 Introduction 1 1.1 Enabling new search means ........................ 1 1.2 Exploiting structured data in searching the web ............ 2 1.3 Renewing knowledge exploration and discovery ............ 3 1.4 Dissertation plan .............................. 4 2 Exploratory search 7 2.1 Introduction ................................. 7 2.2 Search ..................................... 8 2.2.1 Emergence .............................. 8 2.2.2 Popularity .............................. 9 2.2.3 Limits and opportunities ..................... 10 2.3 Exploratory search ............................. 10 2.3.1 Definition .............................. 11 2.3.2 Tasks ................................. 13 2.3.3 Systems ............................... 17 2.3.4 Evaluation .............................. 23 2.4 Conclusion .................................. 25 3 Semantic search 27 3.1 Introduction ................................. 27 3.2 Structured data proliferation ....................... 28 3.3 Semantic web ................................ 31 3.4 Linked data ................................. 33 3.4.1 Principles .............................. 33 3.4.2 Schemas ............................... 35 3.4.3 Datasets ............................... 36 3.4.4 Applications ............................. 42 3.5 Search with semantics ........................... 43 3.5.1 Concepts and approaches ..................... 44 3.5.2 Deployment over the web ..................... 47 3.6 Conclusion .................................. 55 4 Linked data-based exploration and discovery 57 4.1 Introduction ................................. 57 4.2 Linked data browsers ............................ 59 4.2.1 Text-based browsers ........................ 59 4.2.2 Visualization based browsers ................... 62 4.2.3 Faceted browsers .......................... 67 4.2.4 Other browsing paradigms .................... 75 Contents 4.3 Linked data recommenders ........................ 79 4.3.1 Type and domain-specific recommenders . 81 4.3.2 Cross-types and domains recommenders . 84 4.3.3 Industrial semantic recommenders . 86 4.4 Linked data based exploratory search systems . 87 4.4.1 View-based exploratory search systems . 88 4.4.2 Algorithm-based exploratory search systems . 90 4.5 Discussion .................................. 94 4.5.1 Human-computer interaction aspects . 96 4.5.2 Semantic search aspects . 101 4.6 Conclusion ..................................102 5 Relevant resource selection by semantic spreading activation 105 5.1 Introduction .................................105 5.2 Spreading activation basis . 106 5.2.1 Origins ................................106 5.2.2 Core approach . 108 5.2.3 Information retrieval applications . 110 5.3 Requirements and motivations . 114 5.4 Monocentric semantic spreading activation

View Full Text

Details

  • File Type
    pdf
  • Upload Time
    -
  • Content Languages
    English
  • Upload User
    Anonymous/Not logged-in
  • File Pages
    294 Page
  • File Size
    -

Download

Channel Download Status
Express Download Enable

Copyright

We respect the copyrights and intellectual property rights of all users. All uploaded documents are either original works of the uploader or authorized works of the rightful owners.

  • Not to be reproduced or distributed without explicit permission.
  • Not used for commercial purposes outside of approved use cases.
  • Not used to infringe on the rights of the original creators.
  • If you believe any content infringes your copyright, please contact us immediately.

Support

For help with questions, suggestions, or problems, please contact us