Literature by the same author
plus at Google Scholar

Bibliografische Daten exportieren
 

Exploration of Large-Scale SPARQL Query Collections : Finding Structure and Regularity for Optimizing Database Systems

Title data

Timm, Thomas:
Exploration of Large-Scale SPARQL Query Collections : Finding Structure and Regularity for Optimizing Database Systems.
Bayreuth , 2020 . - xii, 153 p.
( Doctoral thesis, 2020 , Universität Bayreuth, Fakultät für Mathematik, Physik und Informatik)
DOI: https://doi.org/10.15495/EPub_UBT_00004634

Official URL: Volltext

Abstract in another language

After the World Wide Web successfully penetrated the lives of people everywhere, it gave rise to the Semantic Web. Whereas the World Wide Web started to be used by humans, the Semantic Web is meant to facilitate machines to process data. To this end, data is modelled as ontology as opposed to storing it in classical relational databases.

The work presented here deals with the research of large-scale collections of queries for semantic databases. Specifically, more than half a billion queries are investigated. The World Wide Web Consortium (W3C) specification Resource Description Framework (RDF) became the prominent standard for modelling semantic data. As corresponding language for querying, the SPARQL Protocol and RDF Query Language (SPARQL, a recursive acronym) was developed by the W3C.

There are various large-scale public databases that offer semantic data for querying. These public endpoints log their usage for various purposes. These logs can offer insight into the actual usage of data and features in SPARQL. We investigate two primary sources for queries: A diverse collections mostly obtained from USEWOD, and publicly available query logs from Wikidata. The diverse collections consists mostly of logs from DBpedia, but it also includes sources such as LinkedGeoData, OpenBioMed, and BioPortal.

The goal of the study in this work is to organize the data in the logs to make sense of it, so trends and insights on the nature of queries in the logs can be identified, which can be used to derive future directions for optimizing database systems that handle linked data and technology surrounding this topic. Therefore, questions guiding the research are from topics such as query evaluation, query optimization, tuning, and benchmarking.

It turns out that quite a few observations can be made and it allows to draw several interesting conclusion. For instance, a very large number of queries is extremely simple. It is possible to describe the shapes of most queries, even more complex ones, with a shape that has favorable properties regarding the efficiency of evaluation. Furthermore, there are differences in queries originating from humans when compared to machine-generated queries.

In this work, several novel, new approaches are taken such as the analysis of shapes of queries, the study of logs with a temporal analysis, and the investigation of query similarity based on structure. Results are entirely reproducible, the accompanying software is made available under an open-source license, and it can be used to explore logs in addition to analyzing them.

Abstract in another language

Nachdem das Word Wide Web erfolgreich in das Leben von Menschen überall Einzug gehalten hatte, bereitete es den Weg für das Semantic Web. Während das Word Wide Web zur menschlichen Nutzung konzipiert worden ist, soll das Semantic Web Maschinen die Verarbeitung von Daten erleichtern. Zu diesem Zweck werden Daten als Ontologie statt mit klassischen relationalen Datenbanken modelliert.

Die vorliegende Arbeit befasst sich mit der Erforschung von riesigen Sammlungen von Anfragen für semantische Datenbanken. Konkret wurden über eine halbe Milliarde Anfragen untersucht. Die vom World Wide Web Consortium (W3C) entwickelte Spezifikation Resource Description Framework (RDF) hat sich als Standard zur Abbildung von semantischen Daten etabliert. Als zugehörige Sprache für Anfragen ist das SPARQL Protocol and RDF Query Language (SPARQL, ein rekursives Akronym) vom W3C entwickelt worden.

Es gibt mehrere große öffentliche Datenbanken die semantische Daten zur Verfügung stellen. Die Nutzung dieser Endpunkte ergibt sich aus deren Protokollierung. Diese Aufzeichnungen liefern Anfragesammlungen, die Aufschluss über die tatsächliche Nutzung der Daten und der Funktionen von SPARQL geben können. Untersucht wurden zwei primäre Quellen für Anfragen: Eine gemischte Sammlung, die hauptsächlich von USEWOD stammt, und öffentlich verfügbare Anfragesammlungen von Wikidata. Die gemischte Sammlung besteht hauptsächlich aus Anfragen von DBpedia, aber sie enthält auch Quellen wie LinkedGeoData, OpenBioMed und BioPortal.

Das Ziel der Untersuchungen in dieser Arbeit ist die Daten der Anfragesammlungen zu ordnen und deren Inhalt zu verstehen, so dass Trends erkannt und Einsichten aus den Anfragesammlungen gewonnen werden können, welche Verwendung haben, um auch zukünftige Richtungen zur Erforschung und Optimierung von Datenbanken und verwandten Technologien aufzuzeigen. Leitende Fragen bei der Forschung kommen aus dem Gebiet der Evaluierung, Optimierung und Leistungsmessung von Anfragen. Es stellt sich heraus, dass mehrere Beobachtungen getroffen werden können und daraus verschiedene interessante Schlüsse gezogen werden können. So ist etwa eine sehr große Anzahl von Anfragen sehr einfach. Ferner ist es möglich, die Form der meisten auch komplexeren Anfragen durch Formen zu beschreiben, die günstige Eigenschaften hinsichtlich der Evaluierung haben. Ferner ist es möglich, Unterschiede bei Anfragen zu sehen, je nachdem ob sie von Menschen oder Maschinen stammen.

In dieser Arbeit werden mehrere neuartige Ansätze und Techniken vorgestellt, wie die Analyse der Formen von Anfragen, der Studie von temporalen Aspekten in Anfragesammlungen oder die Untersuchung der Ähnlichkeit in Strukturen von Anfragen. Die Ergebnisse dieser Arbeit sind vollständig reproduzierbar, die entsprechende Software ist unter einer Open-Source Lizenz veröffentlicht und bietet weitere Funktionen zur Erkundung und Erforschung von Anfragesammlungen.

Further data

Item Type: Doctoral thesis
Keywords: databases; query languages; sparql; rdf; semantic web; property paths; regular expressions
Institutions of the University: Faculties > Faculty of Mathematics, Physics und Computer Science > Department of Computer Science > Professor Applied Computer Science VII > Professor Applied Computer Science VII - Univ.-Prof. Dr. Wim Martens
Faculties
Faculties > Faculty of Mathematics, Physics und Computer Science
Faculties > Faculty of Mathematics, Physics und Computer Science > Department of Computer Science
Faculties > Faculty of Mathematics, Physics und Computer Science > Department of Computer Science > Professor Applied Computer Science VII
Result of work at the UBT: Yes
DDC Subjects: 000 Computer Science, information, general works > 004 Computer science
Date Deposited: 07 Mar 2020 22:00
Last Modified: 07 Mar 2020 22:00
URI: https://eref.uni-bayreuth.de/id/eprint/54590