Keyword-Based Querying for the Social Semantic Web – the Kwql Language: Concept, Algorithm and System
Total Page:16
File Type:pdf, Size:1020Kb
KEYWORD-BASED QUERYING FOR THE SOCIAL SEMANTIC WEB – THE KWQL LANGUAGE: CONCEPT, ALGORITHM AND SYSTEM klara weiand Dissertation an der Fakultät für Mathematik, Informatik und Statistik der Ludwig–Maximilians–Universität, München 15. Dezember 2010 KEYWORD-BASED QUERYING FOR THE SOCIAL SEMANTIC WEB – THE KWQL LANGUAGE: CONCEPT, ALGORITHM AND SYSTEM klara weiand Dissertation an der Fakultät für Mathematik, Informatik und Statistik der Ludwig–Maximilians–Universität, München 15. Dezember 2010 Erster Berichterstatter: Prof. Dr. François Bry Ludwig–Maximilians–Universität München Zweiter Berichterstatter: Prof. Dr. Letizia Tanca Politecnico di Milano Datum des Rigorosums: 8. Februar 2011 Breathe deeply and no one can put you in a cage. — Daniel Odier ABSTRACT Enabling non-experts to publish data on the web is an important achievement of the social web and one of the primary goals of the social semantic web. Making the data easily accessible in turn has received only little attention, which is problematic from the point of view of incentives: users are likely to be less motivated to participate in the creation of content if the use of this content is mostly reserved to experts. Querying in semantic wikis, for example, is typically realized in terms of full text search over the textual content and a web query language such as SPARQL for the annotations. This ap- proach has two shortcomings that limit the extent to which data can be leveraged by users: combined queries over content and annotations are not possible, and users either are restricted to expressing their query intent using simple but vague keyword queries or have to learn a complex web query language. The work presented in this dissertation investigates a more suitable form of querying for semantic wikis that consolidates two seemingly conflicting characteristics of query languages, ease of use and expressiveness. This work was carried out in the context of the semantic wiki KiWi, but the underlying ideas apply more generally to the social semantic and social web. We begin by defining a simple modular conceptual model for the KiWi wiki that enables rich and expressive knowledge representation. A component of this model are structured tags, an annotation formalism that is simple yet flexible and expressive, and aims at bridging the gap between atomic tags and RDF. The viability of the approach is confirmed by a user study, which finds that structured tags are suitable for quickly annotating evolving knowledge and are perceived well by the users. The main contribution of this dissertation is the design and implementation of KWQL, a query language for semantic wikis. KWQL combines keyword search and web querying to enable querying that scales with user experience and information need: basic queries are easy to express; as the search criteria become more complex, more expertise is needed to formulate the corre- sponding query. A novel aspect of KWQL is that it combines both paradigms in a bottom-up fashion. It treats neither of the two as an extension to the other, but instead integrates both in one framework. The language allows for rich combined queries of full text, metadata, document structure, and informal to formal se- mantic annotations. KWilt, the KWQL query engine, provides the vii full expressive power of first-order queries, but at the same time can evaluate basic queries at almost the speed of the underlying search engine. KWQL is accompanied by the visual query lan- guage visKWQL, and an editor that displays both the textual and visual form of the current query and reflects changes to either representation in the other. A user study shows that participants quickly learn to construct KWQL and visKWQL queries, even when given only a short introduction. KWQL allows users to sift the wealth of structure and annota- tions in an information system for relevant data. If relevant data constitutes a substantial fraction of all data, ranking becomes important. To this end, we propose pest, a novel ranking method that propagates relevance among structurally related or similarly annotated data. Extensive experiments, including a user study on a real life wiki, show that pest improves the quality of the ranking over a range of existing ranking approaches. viii ZUSAMMENFASSUNG Eine wichtige Errungenschaft des Social Web und gleichzeitig eines der Hauptziele des Social Semantic Webs ist es, Laien die Veröffentlichung von Daten im Web zu ermöglichen. Der Frage, wie wiederum ein einfacher Zugang zu diesen Daten ermöglicht werden kann, wurde hingegen bisher nur wenig Aufmerksamkeit gewidmet. Dies ist problematisch, da mit einer geringeren Moti- vation der Benutzer bei der Erstellung von Inhalten zu rechnen ist, wenn die Verwendung dieser Inhalte Experten vorbehalten ist. Anfragen in semantischen Wikis sind etwa in der Regel durch Volltext-Suche über die textuellen Inhalte und eine Webanfrage- sprache wie SPARQL für Annotationen realisiert. Dieser Ansatz hat zwei Nachteile, die Benutzer in der Fähigkeit einschränken, Daten zu ihrem Vorteil zu nutzen: kombinierte Anfragen über Volltext und Annotationen sind nicht möglich, und Benutzer müssen ihre Anfrage entweder durch einfache und damit vage Stichworte ausdrücken, oder aber eine komplexe Webanfrage- sprache lernen. Die in dieser Dissertation vorgestellte Forschung untersucht eine geeignetere Form der Anfrage von Daten in semantischen Wikis, die zwei scheinbar gegensätzliche Eigenschaften von An- fragesprachen zusammenführt: Benutzerfreundlichkeit und Aus- druckskraft. Diese Forschung wurde im Rahmen des semantis- chen Wikis KiWi durchgeführt, die zugrundeliegenden Ideen sind jedoch auf das Social Semantic und Social Web im Allgemeinen anwendbar. Wir beginnen mit der Definition eines einfachen und modu- laren konzeptuellen Modells für das KiWi Wiki, das eine mächtige und ausdrucksstarke Repräsentation von Wissen ermöglicht. Ein Bestandteil dieses Modells sind strukturierte Tags, ein einfacher und dennoch flexibler und ausdrucksstarker Annotationsformal- ismus, der darauf abzielt, die Kluft zwischen atomaren Tags und RDF zu überbrücken. Die Tragfähigkeit dieses Ansatzes wird durch eine Nutzerstudie bestätigt, die zeigt, dass strukturierte Tags von den Benutzern positiv aufgenommen werden und zur schnellen Annotierung sich kontinuierlich entwickelnden Wis- sens geeignet sind. Der Hauptbeitrag dieser Dissertation sind der Entwurf und die Implementierung von KWQL, einer Anfragesprache für semantis- che Wikis. KWQL kombiniert Stichwortsuche und Web-Anfragen und kann sich so der Erfahrung und dem Informationsbedarf ix des Nutzers anpassen: Elementare Anfragen können einfach aus- gedrückt werden. Mit der Komplexität der Suchkriterien wächst auch das Fachwissen, das benötigt wird, um die entsprechende Anfrage zu formulieren. Neu ist dabei, dass KWQL die beiden Paradigmen von Grund auf verbindet. Es behandelt keines der beiden als Erweiterung des anderen, sondern integriert beide in einem gemeinsamen System. Die Sprache ermöglicht mächtige kombinierte Anfragen über Volltext, Metadaten, Dokumentstruk- tur, und informale und formale semantische Annotationen. KWilt, die Anfrage-Engine von KWQL, bietet die volle Ausdruckskraft von Logik erster Stufe, gleichzeitig können einfache Anfragen nahezu mit der Geschwindigkeit der zugrundeliegenden Such- maschine ausgewertet werden. KWQL wird ergänzt durch die visuelle Anfragesprache visKWQL sowie durch einen Editor, der sowohl die textuelle als auch die visuelle Form der aktuellen Anfrage anzeigt und Änderungen in einer Darstellung in der jeweils anderen wiedergibt. Eine Nutzerstudie zeigt, dass die Teilnehmer schnell lernen, Anfragen in KWQL und visKWQL zu erstellen, selbst wenn nur eine kurze Einführung gegeben wurde. KWQL ermöglicht es, die reichhaltige Struktur und Anno- tationen eines Informationssystems nach relevanten Daten zu durchsuchen. Wenn die relevanten Daten einen erheblichen An- teil aller Daten ausmachen, gewinnt deren Ranking an Bedeutung. Zu diesem Zweck stellen wir pest vor, eine neue Methode zur Berechnung von Rankings, die Relevanz zwischen strukturell verwandten oder ähnlich annotierten Daten propagiert. Umfan- greiche Experimente, darunter eine Nutzerstudie in einem realen Wiki, zeigen, dass pest die Qualität des Rankings verglichen mit eine Reihe bestehender Ansätze verbessert. x PUBLICATIONS Some ideas and figures have appeared previously in the following publications: A. Hartl, K. Weiand, and F. Bry. visKWQL, Visual Keyword Queries for Semantic Data. In Third Future Internet Symposium (FIS), 2010. K. Weiand, S. Hausmann, T. Furche, and F. Bry. KWilt: A Semantic Patchwork for Flexible Access to Heterogeneous Knowledge. In Fourth International Conference on Web Reasoning and Rule Systems (RR), 2010. K. Weiand, F. Kneißl, T. Furche, and F. Bry. PEST: Term-Propaga- tion over Wiki Structures as Eigenvector Computation. In Fifth Workshop on Semantic Wikis (SemWiki), 2010. A. Hartl, K. Weiand, and F. Bry. visKQWL, a Visual Renderer for a Semantic Web Query Language. In International World Wide Web Conference (WWW), 2010. F. Bry and K. Weiand. Flavors of KWQL, a Keyword Query Lan- guage for a Semantic Wiki. In Theory and Practice of Computer Science (SOFSEM), 2010. F. Bry, T. Furche, and K. Weiand. Web Queries: From a Web of Data to a Semantic Web. In Web Information Systems Engineering (WISE), 2009. F. Bry and K. Weiand. KWQL, Querying for Social Semantic Soft- ware. In Reasoning Web, Fifth International Summer School, 2009. F. Bry, M. Eckert, J. Kotowski, and K. Weiand. What the User Interacts