Query Execution

Total Page:16

File Type:pdf, Size:1020Kb

Query Execution Querying Heterogeneous Data in an In-situ Unified Agile System Dissertation zur Erlangung des akademischen Grades Doktor-Ingenieur (Dr.-Ing.) vorgelegt dem Rat der Fakultät für Mathematik und Informatik der Friedrich-Schiller-Universität Jena von M.Sc. Javad Chamanara geboren am 23.10.1972 in Eilam Gutachter 1. Prof. Dr. Birgitta König-Ries Friedrich-Schiller-Universität Jena, 07743 Jena, Thüringen, Deutschland 2. Wird vom Fakultätsrat bekannt gegeben Prof. Dr. H. V. Jagadish University of Michigan, 48109-2121 Ann Arbor, Michigan, USA 3. Wird vom Fakultätsrat bekannt gegeben Prof. Dr. Klaus Meyer-Wegener Friedrich-Alexander-Universität, 91058 Erlangen, Bayern, Deutschland Tag der öffentlichen Verteidigung: 12. APRIL 2018 Ehrenwörtliche Erklärung Hiermit erkläre ich, • dass mir die Promotionsordnung der Fakultät bekannt ist, • dass ich die Dissertation selbst angefertigt habe, keine Textabschnitte oder Ergebnisse eines Dritten oder eigenen Prüfungsarbeiten ohne Kennzeichnung übernommen und alle von mir benutzten Hilfsmittel, persönliche Mitteilungen und Quellen in meiner Arbeit angegeben habe, • dass ich die Hilfe eines Promotionsberaters nicht in Anspruch genommen habe und dass Dritte weder unmittelbar noch mittelbar geldwerte Leistungen von mir für Arbeiten erhal- ten haben, die im Zusammenhang mit dem Inhalt der vorgelegten Dissertation stehen, • dass ich die Dissertation noch nicht als Prüfungsarbeit für eine staatliche oder andere wissenschaftliche Prüfung eingereicht habe. Bei der Auswahl und Auswertung des Materials sowie bei der Herstellung des Manuskripts haben mich folgende Personen unterstützt: • Prof. Dr. Birgitta König-Ries Ich habe die gleiche, eine in wesentlichen Teilen ähnliche bzw. eine andere Abhandlung bereits bei einer anderen Hochschule als Dissertation eingereicht: Ja / Nein. Jena, den 12. April 2018 [Javad Chamanara] To Diana Deutsche Zusammenfassung Die Datenheterogenität wächst in allen Aspekten viel rasanter als je zuvor. Daten werden auf ver- schiedene Art und Weise in vielfältigen Formaten und wechselnden Geschwindigkeiten gespei- chert. Softwaresysteme, die diese Daten verarbeiten und verwalten, sind zudem inkompatibel, unvollständig und vielfältig. Datenwissenschaftler müssen oft Daten aus heterogenen Quellen integrieren, um einen Ende-zu-Ende Prozess aufzusetzen und durchführen zu können, der ihnen zu neuen Erkenntnissen verhilft. Zum Beispiel kommt es vor, dass Wissenschaftler Sensordaten aus einer CSV-Datei mit Simulationsergebnissen aus MATLAB-Dateien, Beobachtungsdaten in Excel-Dateien und Referenzdaten aus einer relationalen Datenbank miteinander kombinieren müssen. Diese Daten werden von einer Vielzahl von Werkzeugen und unterschiedlichen Perso- nen für verschiedene Zwecke produziert. In der Regel benötigt der Wissenschaftler nicht alle verfügbaren Informationen aus den Dateien, jedoch ändert sich die erforderliche Datenauswahl über den Forschungszeitraum. Zudem haben Wissenschaftler oft nur eine begrenzte Anzahl an Forschungsfragen und neigen daher dazu, gerade so viele Daten zu integrieren, wie nötig sind um diese Fragen zu beantworten. Ihre Analyse umfasst oft wechselnde Anfragen und volatile Daten in denen sich zum Beispiel die Struktur häufig verändert. Aufgrund dieser Gegebenheiten können Wissenschaftler nicht zu Beginn ihrer Forschungstätigkeit entscheiden, welches Daten- schema, welche Werkzeuge und welche Abläufe sie verwenden. Stattdessen würden sie lieber verschiedene Werkzeuge nutzen, um iterativ Daten zu verbinden und zu integrieren. So könnte ein geeignetes Datenschema nur mit den relevanten Teildaten geformt werden. Dieser Prozess generiert eine Vielzahl von ad-hoc ETL-Operationen (Extraction-Transformation-Load), die es erfordern häufig Daten zu integrieren. Datenintegration stellt eine vereinheitlichte Sicht durch Verknüpfung von Daten aus verschie- denen Quellen dar. Sie beschäftigt sich mit Herausforderungen in Bezug auf die Heterogenität in der Syntax, Struktur und Semantik von Daten. In heutigen multidisziplinären und kollabo- rativen Forschungsumgebungen werden Daten funktionionsübergreifend produziert und konsu- miert. Mit anderen Worten, zahlreiche Forscher verarbeiten Daten in verschiedenen Disziplinen um vielfältige Forschungsumgebungen mit unterschiedlichen Messauflösungen und mehreren Anfrageprozessoren und Analysewerkzeuge zu bedienen. Diese funktionsübergreifenden Daten- operationen sind ein wesentlicher Bestandteil jeder erfolgreichen datenintensiven Forschungs- aktivität. Die zwei klassischen Ansätze in der Datenintegration, die materialisierte und virtuelle Inte- gration, lösen nicht die oben beschriebenen Probleme im Datenmanagement und in der Da- tenverarbeitung. Beide zielen darauf ab Informationen vollständig zu integrieren. Die Annah- me hier ist, dass es sich lohnt, erhebliche Anstrengungen in die Bereitstellung von Langzeit- Informationssystemen zu investieren, die in der Lage sind, eine große Bandbreite an Anfragen zu beantworten. Weitere Faktoren, die die materialisierte Integration erschweren, sind die unbe- ständige Natur von Forschungsdaten und die oft großen Datenmengen oder die starren Zugangs- bestimmungen, die die Datenweitergabe verhindern. Virtuelle Integration ist nicht geeignet, da hier Optimierungsmöglichkeiten für nicht-relationale Datenquellen fehlen. Die grundlegende Schwierigkeit ist, dass die Daten nicht nur in Syntax, Struktur und Semantik heterogen sind, sondern auch in der Art und Weise wie auf sie zugegriffen wird. Während sich vii Deutsche Zusammenfassung zum Beispiel bestimmte Daten in funktionsreichen, relationalen Datenbanken befinden, auf die mittels deklarativer Anfragen zugegriffen wird, werden andere durch MapReduce-Programme unter Verwendung prozeduraler Berechnungsmodelle verarbeitet. Des Weiteren werden viele sensorgenerierte Daten in CSV-Dateien verwaltet, ohne dass auf die Verwendung etablierter For- matierungsstandards und grundlegender Datenmanagement-Funktionen zurück gegriffen wird. Sogar verschiedene relationale Datenbanksysteme unterscheiden sich in Syntax, Einhaltung von SQL-Standards und Funktionsumfang. Wir bezeichnen das als Datenzugriffs-Heterogenität. Datenzugriffs-Heterogenität bezieht sich auf Unterschiede im Hinblick auf Berechnungsmodelle (z.B. prozedural, deklarativ), Abfragemöglichkeiten, Syntax und Semantik der durch verschie- dene Hersteller oder Systeme bereitgestellten Funktionalität. Weiterhin schließt dies auch die Datentypen und Formate ein, in denen Daten und Abfrageergebnisse zurück geliefert werden. Ein kritischer Aspekt der Datenzugriffs-Heterogenität sind die Unterschiede im Funktionsum- fang verschiedener Datenquellen. Während einige Datenquellen, wie zum Beispiel relationa- le, graphbasierte und Array-Datenbanken, als starke Datenquellen klassifiziert werden, haben schwache Datenquellen, wie zum Beispiel Tabellenkalkulationen kein bewährtes Datenmana- gement. Zudem unterstützen nicht alle Datenmanagementsysteme die Funktionen, die von den Anwendern gefordert werden. Daher sollten wir in die Liste der Heterogenität das Interesse von Datenwissenschaftlern an Berechnungen mit Rohdaten aufnehmen. Des Weiteren müssen domänenspezifische Werkzeuge, die Datenwissenschaftler in der Forschung verwenden, ebenso hinzugefügt werden, wie eine Vielzahl an Werkzeugen und Sprachen, die benötigt werden, um Datenanalyse-Aufgaben zu bewältigen. In dieser Arbeit identifizieren wir den Bedarf an besseren Werkzeugen, um die Gesamtkosten über den vollständigen Datenlebenszyklus von Rohdaten zu Forschungserkenntnissen zu mi- nimieren. Wir argumentieren außerdem, dass diese Werkzeuge demokratisiert werden sollten durch quelloffene, interoperable und leicht bedienbare Systeme. Im Gegensatz zu relationalen Datenbanksystemen, die Funktionen zur Speicherung und Abfrage auf entsprechende Datenmo- delle bereitstellen, schlagen wir ein agiles Datenabfragesystem vor. Das ist ein ausdrucksstarkes Datenabruf-System, das nicht an die Datenspeicherung oder darunterliegenden Datenmanage- mentsysteme mit begrenztem Funktionsumfang gebunden ist. Das Ziel eines solchen Systems sind schnelle Rückmeldungen für Anwender und die Vermeidung der Vervielfältigung von Da- ten, während gleichzeitig ein vereinheitlichtes Abfrage-und Berechnungsmodell zur Verfügung gestellt wird. In dieser Arbeit stellen wir QUIS (Query In-Situ) vor. QUIS ist ein agiles Abfragesystem, ausge- stattet mit einer vereinheitlichten Abfragesprache und einer föderierten Ausführungseinheit, die in der Lage ist Abfragen an Ort und Stelle über heterogene Daten auszuführen. Seine Sprache erweitert SQL um Funktionalitäten wie virtuelle Schemas, heterogene Verknüpfungen und po- lymorphe Präsentationen der Ergebnisse. QUIS nutzt das Konzept der Abfrage-Virtualisierung, das auf einem Verbund von Agenten basiert, um eine gegebene Anfrage in einer bestimmten Sprache in ein Berechnungsmodell zu überführen, das sich auf den zugewiesenen Datenquel- len ausführen lässt. Während die verteilte Anfrage-Virtualisierung viel größere Flexibilität und Unterstützung von Heterogenität ermöglicht als die zentralisierte Virtualisierung von Daten, hat viii Deutsche Zusammenfassung sie jedoch den Nachteil, dass einige Teile der Anfrage nicht immer von den zugewiesenen Da- tenquellen unterstützt werden und dass das Abfragesystem dann als Sicherung agieren muss, um diese Fälle zu komplementieren. QUIS garantiert, dass die Anfragen immer komplett ausge- führt werden. Wenn die Zielquelle die Anforderungen an die Abfrage nicht erfüllt, identifiziert QUIS fehlende Funktionalitäten und
Recommended publications
  • Empirical Study on the Usage of Graph Query Languages in Open Source Java Projects
    Empirical Study on the Usage of Graph Query Languages in Open Source Java Projects Philipp Seifer Johannes Härtel Martin Leinberger University of Koblenz-Landau University of Koblenz-Landau University of Koblenz-Landau Software Languages Team Software Languages Team Institute WeST Koblenz, Germany Koblenz, Germany Koblenz, Germany [email protected] [email protected] [email protected] Ralf Lämmel Steffen Staab University of Koblenz-Landau University of Koblenz-Landau Software Languages Team Koblenz, Germany Koblenz, Germany University of Southampton [email protected] Southampton, United Kingdom [email protected] Abstract including project and domain specific ones. Common applica- Graph data models are interesting in various domains, in tion domains are management systems and data visualization part because of the intuitiveness and flexibility they offer tools. compared to relational models. Specialized query languages, CCS Concepts • General and reference → Empirical such as Cypher for property graphs or SPARQL for RDF, studies; • Information systems → Query languages; • facilitate their use. In this paper, we present an empirical Software and its engineering → Software libraries and study on the usage of graph-based query languages in open- repositories. source Java projects on GitHub. We investigate the usage of SPARQL, Cypher, Gremlin and GraphQL in terms of popular- Keywords Empirical Study, GitHub, Graphs, Query Lan- ity and their development over time. We select repositories guages, SPARQL, Cypher, Gremlin, GraphQL based on dependencies related to these technologies and ACM Reference Format: employ various popularity and source-code based filters and Philipp Seifer, Johannes Härtel, Martin Leinberger, Ralf Lämmel, ranking features for a targeted selection of projects.
    [Show full text]
  • Towards an Analytics Query Engine *
    Towards an Analytics Query Engine ∗ Nantia Makrynioti Vasilis Vassalos Athens University of Economics and Business Athens University of Economics and Business Athens, Greece Athens, Greece [email protected] [email protected] ABSTRACT with black box libraries, evaluating various algorithms for a This vision paper presents new challenges and opportuni- task and tuning their parameters, in order to produce an ef- ties in the area of distributed data analytics, at the core of fective model, is a time-consuming process. Things become which are data mining and machine learning. At first, we even more complicated when we want to leverage paralleliza- provide an overview of the current state of the art in the area tion on clusters of independent computers for processing big and then analyse two aspects of data analytics systems, se- data. Details concerning load balancing, scheduling or fault mantics and optimization. We argue that these aspects will tolerance can be quite overwhelming even for an experienced emerge as important issues for the data management com- software engineer. munity in the next years and propose promising research Research in the data management domain recently started directions for solving them. tackling the above issues by developing systems for large- scale analytics that aim at providing higher-level primitives for building data mining and machine learning algorithms, Keywords as well as hiding low-level details of distributed execution. Data analytics, Declarative machine learning, Distributed MapReduce [12] and Dryad [16] were the first frameworks processing that paved the way. However, these initial efforts suffered from low usability, as they offered expressive but at the same 1.
    [Show full text]
  • Evaluation of Xpath Queries on XML Streams with Networks of Early Nested Word Automata Tom Sebastian
    Evaluation of XPath Queries on XML Streams with Networks of Early Nested Word Automata Tom Sebastian To cite this version: Tom Sebastian. Evaluation of XPath Queries on XML Streams with Networks of Early Nested Word Automata. Databases [cs.DB]. Universite Lille 1, 2016. English. tel-01342511 HAL Id: tel-01342511 https://hal.inria.fr/tel-01342511 Submitted on 6 Jul 2016 HAL is a multi-disciplinary open access L’archive ouverte pluridisciplinaire HAL, est archive for the deposit and dissemination of sci- destinée au dépôt et à la diffusion de documents entific research documents, whether they are pub- scientifiques de niveau recherche, publiés ou non, lished or not. The documents may come from émanant des établissements d’enseignement et de teaching and research institutions in France or recherche français ou étrangers, des laboratoires abroad, or from public or private research centers. publics ou privés. Universit´eLille 1 – Sciences et Technologies Innovimax Sarl Institut National de Recherche en Informatique et en Automatique Centre de Recherche en Informatique, Signal et Automatique de Lille These` pr´esent´ee en premi`ere version en vue d’obtenir le grade de Docteur par l’Universit´ede Lille 1 en sp´ecialit´eInformatique par Tom Sebastian Evaluation of XPath Queries on XML Streams with Networks of Early Nested Word Automata Th`ese soutenue le 17/06/2016 devant le jury compos´ede : Carlo Zaniolo University of California Rapporteur Anca Muscholl Universit´eBordeaux Rapporteur Kim Nguyen Universit´eParis-Sud Examinateur Remi Gilleron Universit´eLille 3 Pr´esident du Jury Joachim Niehren INRIA Directeur Abstract The eXtended Markup Language (Xml) provides a format for representing data trees, which is standardized by the W3C and largely used today for exchanging information between all kinds of computer programs.
    [Show full text]
  • QUERYING JSON and XML Performance Evaluation of Querying Tools for Offline-Enabled Web Applications
    QUERYING JSON AND XML Performance evaluation of querying tools for offline-enabled web applications Master Degree Project in Informatics One year Level 30 ECTS Spring term 2012 Adrian Hellström Supervisor: Henrik Gustavsson Examiner: Birgitta Lindström Querying JSON and XML Submitted by Adrian Hellström to the University of Skövde as a final year project towards the degree of M.Sc. in the School of Humanities and Informatics. The project has been supervised by Henrik Gustavsson. 2012-06-03 I hereby certify that all material in this final year project which is not my own work has been identified and that no work is included for which a degree has already been conferred on me. Signature: ___________________________________________ Abstract This article explores the viability of third-party JSON tools as an alternative to XML when an application requires querying and filtering of data, as well as how the application deviates between browsers. We examine and describe the querying alternatives as well as the technologies we worked with and used in the application. The application is built using HTML 5 features such as local storage and canvas, and is benchmarked in Internet Explorer, Chrome and Firefox. The application built is an animated infographical display that uses querying functions in JSON and XML to filter values from a dataset and then display them through the HTML5 canvas technology. The results were in favor of JSON and suggested that using third-party tools did not impact performance compared to native XML functions. In addition, the usage of JSON enabled easier development and cross-browser compatibility. Further research is proposed to examine document-based data filtering as well as investigating why performance deviated between toolsets.
    [Show full text]
  • Programming a Parallel Future
    Programming a Parallel Future Joseph M. Hellerstein Electrical Engineering and Computer Sciences University of California at Berkeley Technical Report No. UCB/EECS-2008-144 http://www.eecs.berkeley.edu/Pubs/TechRpts/2008/EECS-2008-144.html November 7, 2008 Copyright 2008, by the author(s). All rights reserved. Permission to make digital or hard copies of all or part of this work for personal or classroom use is granted without fee provided that copies are not made or distributed for profit or commercial advantage and that copies bear this notice and the full citation on the first page. To copy otherwise, to republish, to post on servers or to redistribute to lists, requires prior specific permission. Programming a Parallel Future Joe Hellerstein UC Berkeley Computer Science Things change fast in computer science, but odds are good that they will change especially fast in the next few years. Much of this change centers on the shift toward parallel computing. In the short term, parallelism will thrive in settings with massive datasets and analytics. Longer term, the shift to parallelism will impact all software. In this note, I’ll outline some key changes that have recently taken place in the computer industry, show why existing software systems are ill‐equipped to handle this new reality, and point toward some bright spots on the horizon. Technology Trends: A Divergence in Moore’s Law Like many changes in computer science, the rapid drive toward parallel computing is a function of technology trends in hardware. Most technology watchers are familiar with Moore's Law, and the general notion that computing performance per dollar has grown at an exponential rate — doubling about every 18‐24 months — over the last 50 years.
    [Show full text]
  • Declarative Data Analytics: a Survey
    Declarative Data Analytics: a Survey NANTIA MAKRYNIOTI, Athens University of Economics and Business, Greece VASILIS VASSALOS, Athens University of Economics and Business, Greece The area of declarative data analytics explores the application of the declarative paradigm on data science and machine learning. It proposes declarative languages for expressing data analysis tasks and develops systems which optimize programs written in those languages. The execution engine can be either centralized or distributed, as the declarative paradigm advocates independence from particular physical implementations. The survey explores a wide range of declarative data analysis frameworks by examining both the programming model and the optimization techniques used, in order to provide conclusions on the current state of the art in the area and identify open challenges. CCS Concepts: • General and reference → Surveys and overviews; • Information systems → Data analytics; Data mining; • Computing methodologies → Machine learning approaches; • Software and its engineering → Domain specific languages; Data flow languages; Additional Key Words and Phrases: Declarative Programming, Data Science, Machine Learning, Large-scale Analytics ACM Reference Format: Nantia Makrynioti and Vasilis Vassalos. 2019. Declarative Data Analytics: a Survey. 1, 1 (February 2019), 36 pages. https://doi.org/10.1145/nnnnnnn.nnnnnnn 1 INTRODUCTION With the rapid growth of world wide web (WWW) and the development of social networks, the available amount of data has exploded. This availability has encouraged many companies and organizations in recent years to collect and analyse data, in order to extract information and gain valuable knowledge. At the same time hardware cost has decreased, so storage and processing of big data is not prohibitively expensive even for smaller companies.
    [Show full text]
  • Big Data Analytic Approaches Classification
    Big Data Analytic Approaches Classification Yudith Cardinale1 and Sonia Guehis2,3 and Marta Rukoz2,3 1Dept. de Computacion,´ Universidad Simon´ Bol´ıvar, Venezuela 2Universite´ Paris Nanterre, 92001 Nanterre, France 3Universite´ Paris Dauphine, PSL Research University, CNRS, UMR[7243], LAMSADE, 75016 Paris, France Keywords: Big Data Analytic, Analytic Models for Big Data, Analytical Data Management Applications. Abstract: Analytical data management applications, affected by the explosion of the amount of generated data in the context of Big Data, are shifting away their analytical databases towards a vast landscape of architectural solutions combining storage techniques, programming models, languages, and tools. To support users in the hard task of deciding which Big Data solution is the most appropriate according to their specific requirements, we propose a generic architecture to classify analytical approaches. We also establish a classification of the existing query languages, based on the facilities provided to access the Big Data architectures. Moreover, to evaluate different solutions, we propose a set of criteria of comparison, such as OLAP support, scalability, and fault tolerance support. We classify different existing Big Data analytics solutions according to our proposed generic architecture and qualitatively evaluate them in terms of the criteria of comparison. We illustrate how our proposed generic architecture can be used to decide which Big Data analytic approach is suitable in the context of several use cases. 1 INTRODUCTION nally, despite these increases in scale and complexity, users still expect to be able to query data at interac- The term Big Data has been coined for represent- tive speeds. In this context, several enterprises such ing the challenge to support a continuous increase as Internet companies and Social Network associa- on the computational power that produces an over- tions have proposed their own analytical approaches, whelming flow of data (Kune et al., 2016).
    [Show full text]
  • A Comparison Between Cypher and Conjunctive Queries
    A comparison between Cypher and conjunctive queries Jaime Castro and Adri´anSoto Pontificia Universidad Cat´olicade Chile, Santiago, Chile 1 Introduction Graph databases are one of the most popular type of NoSQL databases [2]. Those databases are specially useful to store data with many relations among the entities, like social networks, provenance datasets or any kind of linked data. One way to store graphs is property graphs, which is a type of graph where nodes and edges can have attributes [1]. A popular graph database system is Neo4j [4]. Neo4j is used in production by many companies, like Cisco, Walmart and Ebay [4]. The data model is like a property graph but with small differences. Its query language is Cypher. The expressive power is not known because currently Cypher does not have a for- mal definition. Although there is not a standard for querying graph databases, this paper proposes a comparison between Cypher, because of the popularity of Neo4j, and conjunctive queries which are arguably the most popular language used for pattern matching. 1.1 Preliminaries Graph Databases. Graphs can be used to store data. The nodes represent objects in a domain of interest and edges represent relationships between these objects. We assume familiarity with property graphs [1]. Neo4j graphs are stored as property graphs, but the nodes can have zero or more labels, and edges have exactly one type (and not a label). Now we present the model we work with. A Neo4j graph G is a tuple (V; E; ρ, Λ, τ; Σ) where: 1. V is a finite set of nodes, and E is a finite set of edges such that V \ E = ;.
    [Show full text]
  • Introduction to Graph Database with Cypher & Neo4j
    Introduction to Graph Database with Cypher & Neo4j Zeyuan Hu April. 19th 2021 Austin, TX History • Lots of logical data models have been proposed in the history of DBMS • Hierarchical (IMS), Network (CODASYL), Relational, etc • What Goes Around Comes Around • Graph database uses data models that are “spiritual successors” of Network data model that is popular in 1970’s. • CODASYL = Committee on Data Systems Languages Supplier (sno, sname, scity) Supply (qty, price) Part (pno, pname, psize, pcolor) supplies supplied_by Edge-labelled Graph • We assign labels to edges that indicate the different types of relationships between nodes • Nodes = {Steve Carell, The Office, B.J. Novak} • Edges = {(Steve Carell, acts_in, The Office), (B.J. Novak, produces, The Office), (B.J. Novak, acts_in, The Office)} • Basis of Resource Description Framework (RDF) aka. “Triplestore” The Property Graph Model • Extends Edge-labelled Graph with labels • Both edges and nodes can be labelled with a set of property-value pairs attributes directly to each edge or node. • The Office crew graph • Node �" has node label Person with attributes: <name, Steve Carell>, <gender, male> • Edge �" has edge label acts_in with attributes: <role, Michael G. Scott>, <ref, WiKipedia> Property Graph v.s. Edge-labelled Graph • Having node labels as part of the model can offer a more direct abstraction that is easier for users to query and understand • Steve Carell and B.J. Novak can be labelled as Person • Suitable for scenarios where various new types of meta-information may regularly
    [Show full text]
  • Handling Scalable Approximate Queries Over Nosql Graph Databases: Cypherf and the Fuzzy4s Framework
    Castelltort, A. , & Martin, T. (2017). Handling scalable approximate queries over NoSQL graph databases: Cypherf and the Fuzzy4S framework. Fuzzy Sets and Systems. https://doi.org/10.1016/j.fss.2017.08.002 Peer reviewed version License (if available): CC BY-NC-ND Link to published version (if available): 10.1016/j.fss.2017.08.002 Link to publication record in Explore Bristol Research PDF-document This is the author accepted manuscript (AAM). The final published version (version of record) is available online via Elsevier at https://www.sciencedirect.com/science/article/pii/S0165011417303093?via%3Dihub . Please refer to any applicable terms of use of the publisher. University of Bristol - Explore Bristol Research General rights This document is made available in accordance with publisher policies. Please cite only the published version using the reference above. Full terms of use are available: http://www.bristol.ac.uk/pure/about/ebr-terms *Manuscript 1 2 3 4 5 6 7 8 9 Handling Scalable Approximate Queries over NoSQL 10 Graph Databases: Cypherf and the Fuzzy4S Framework 11 12 13 Arnaud Castelltort1, Trevor Martin2 14 1 LIRMM, CNRS-University of Montpellier, France 15 2Department of Engineering Mathematics, University of Bristol, UK 16 17 18 19 20 21 Abstract 22 23 NoSQL databases are currently often considered for Big Data solutions as they 24 25 offer efficient solutions for volume and velocity issues and can manage some of 26 complex data (e.g., documents, graphs). Fuzzy approaches are yet often not 27 28 efficient on such frameworks. Thus this article introduces a novel approach to 29 30 define and run approximate queries over NoSQL graph databases using Scala 31 by proposing the Fuzzy4S framework and the Cypherf fuzzy declarative query 32 33 language.
    [Show full text]
  • Evaluating a Graph Query Language for Human-Robot Interaction Data in Smart Environments
    Evaluating a Graph Query Language for Human-Robot Interaction Data in Smart Environments Norman K¨oster1, Sebastian Wrede12, and Philipp Cimiano1 1 Cluster of Excellence Center in Cognitive Interactive Technology (CITEC) 2 Research Institute for Cognition and Robotics (CoR-Lab), Bielefeld University, Bielefeld Germany fnkoester,swrede,[email protected], Abstract. Solutions for efficient querying of long-term human-robot in- teraction data require in-depth knowledge of the involved domains and represents a very difficult and error prone task due to the inherent (sys- tem) complexity. Developers require detailed knowledge with respect to the different underlying data schemata, semantic mappings, and most im- portantly the query language used by the storage system (e.g. SPARQL, SQL, or general purpose language interfaces/APIs). While for instance database developers are familiar with technical aspects of query lan- guages, application developers typically lack the specific knowledge to efficiently work with complex database management systems. Addressing this gap, in this paper we describe a model-driven software development based approach to create a long term storage system to be employed in the domain of embodied interaction in smart environments (EISE). The targeted EISE scenario features a smart environment (i.e. smart home) in which multiple agents (a mobile autonomous robot and two virtual agents) interact with humans to support them in daily activities. To support this we created a language using Jetbrains MPS to model the high level EISE domain w.r.t. the occurring interactions as a graph com- posed of nodes and their according relationships. Further, we reused and improved capabilities of a previously created language to represent the graph query language Cypher.
    [Show full text]
  • Cypher-Based Graph Pattern Matching in Gradoop
    Cypher-based Graph Paern Matching in Gradoop Martin Junghanns Max Kießling Alex Averbuch University of Leipzig & ScaDS Dresden/Leipzig University of Leipzig & Neo Technology Neo Technology [email protected] [email protected] [email protected] Andre´ Petermann Erhard Rahm University of Leipzig & ScaDS Dresden/Leipzig University of Leipzig & ScaDS Dresden/Leipzig [email protected] [email protected] ABSTRACT In consequence, valuable insights may remain hidden as analysts Graph paern matching is an important and challenging operation are restrained either by limited scalability of graph databases or on graph data. Typical use cases are related to graph analytics. missing functionality of graph processing systems. In particular, Since analysts are oen non-programmers, a graph system will we see a need to extend graph processing by query capabilities only gain acceptance, if there is a comprehensible way to declare that show the same expressiveness as those of graph database paern matching queries. However, respective query languages systems. is motivated us to add the paern matching core of are currently only supported by graph databases but not by dis- Neo4j’s declarative graph query language Cypher1 to Gradoop, a tributed graph processing systems. To enable paern matching on distributed open-source framework for graph analytics and process- a large scale, we implemented the declarative graph query language ing [12]. Our query engine is fully integrated and paern matching Cypher within the distributed graph analysis platform Gradoop. can be used in combination with other analytical graph operators Using LDBC graph data, we show that our query engine is scalable provided by the framework.
    [Show full text]