Resource and Location Aware Robust, Decentralized Data Management
Total Page:16
File Type:pdf, Size:1020Kb
Resource and Location Aware Robust, Decentralized Data Management Dissertation zur Erlangung des akademischen Grades Doktor-Ingenieur (Dr.-Ing.) vorgelegt der Fakultat¨ fur¨ Informatik und Automatisierung der Technischen Universitat¨ Ilmenau von Dipl.-Math. Elizabeth Ribe-Baumann Tag der Einreichung: 16.Oktober 2013 Tag der wissenschaftlichen Aussprache: 18.November 2014 Gutachter 1. Prof. Dr.{Ing. Kai-Uwe Sattler 2. Prof. Dr. rer. nat. Jochen Seitz 3. Prof. Dr. Manfred Hauswirth urn:nbn:de:gbv:ilm1-2014000449 Abstract Increasingly, large amounts of data are being stored in a distributed manner over wide area net- works. Such large scale networks most often employ heterogeneous nodes, with heterogeneity taking the form of available battery power, bandwidth, computing power, and/or network up-times, among other things. As smartphones have become an ubiquitous element of every-day life, the potential for large scale peer-to-peer networks with strong contrasts in peers' capabilities has become undeniable. This scenario is especially relevant for disaster scenarios when access to existing data storage may be unavailable or inaccessible for the broad population, although important information about condi- tions, hazards, or injured people could be collected by general civilians. But networks built on a mix of smartphones, laptops, and servers are not the only heterogeneous systems with the potential to distributively store large amounts of data: sensor networks and computing clouds also contain nodes with varying characteristics. However, at the core of these distributed, heterogeneous networks is a necessity to accommodate nodes' varying accessibility to resources and to reduce network load by providing short paths between where data is stored and needed, while ensuring a high level of data robustness, or availability. In fact, this resource and location awareness should be used to increase robustness. This work thus focuses on resource and location awareness for robust data management in decentral- ized, potentially peer-to-peer, networks. In order to facilitate the assessment and comparison of re- source and location aware approaches, taxonomies are developed for the classification of how resources and proximity are handled. In addition to robustness, resource awareness, and location awareness, four further requirements are derived from this work's use case scenarios: self-organization, scalability, load balancing, and data consistency. A structured network approach was chosen in order to provide availability guarantees for stored data. The lack of structured approaches with both resource and location awareness led to the development of two novel distributed hash tables (DHTs) Resource Based Finger Management (RBFM) and Hier- archical Resource Management (HRM), which are more and less loosely based on the existing DHT Chord and have the same O(log N) routing complexity. These two DHTs take fundamentally different structural approaches to building an overlay, such that the flat RBFM and the multi-tiered hierarchical HRM provide a foundation with which to examine the suitability of flat vs. hierarchical overlay struc- tures for resource and location awareness. Moreover, HRM uses a variable number of hierarchical layers, facilitating also a comparisons of varying numbers of hierarchy layers. An additional hybrid version of both DHTs as well as a cluster-based version of RBFM for ad hoc networks are also described and used for simulative comparisons. Mathematical analysis and simulative evaluations of the developed DHTs in comparison with naive and location aware approaches demonstrate how resource awareness improve both node lifetimes and lookup success rates twofold when resources are correlated with node failure probabilities. However, a higher number of hierarchy layers causes an increase in overall routing and maintenance load, thus decreasing node lifetimes, so that a lower number of hierarchy layers is beneficial. DHTs require data replication to ensure that data is not lost when nodes unexpectedly leave the network, which is especially important in the high churn scenarios considered in this work. Thus, a replication technique is tailored to the resource and location aware structure of the proposed DHTs, providing both an increase in resource and location awareness as well as a reduction in the overall replication load. Mathematical analysis demonstrates how the number of replicas necessary to provide a given availability probability is significantly reduced while the remaining replica load is transferred from weak to strong nodes. Zusammenfassung Große Datenmengen werden zunehmend auf weite Netze, die oft aus heterogenen Knoten bestehen, verteilt. Dabei kann Heterogenit¨atbeispielsweise variable Batteriekapazit¨at,Bandbreite, Rechenleis- tung oder auch Lebenszeiten beudeuten. Die weite Verbreitung von Smartphones im Alltag birgt ein Potenzial f¨urgroße Peer-to-Peer Netzwerke, in dem Knoten stark variierende Leistungsf¨ahigkeiten aufweisen. Dieses Szenario ist besonders f¨urKatastrophen-Szenarien relevant, wenn der Zugang zu bereits existierenden Datenspeicherungsm¨oglichkeiten entweder unerreichbar oder unzug¨anglich f¨ur die Mehrheit der Bev¨olkerung ist. Gerade in einem Katastrophen-Szenario sammeln Zivilisten allein durch ihren Aufenthalt an weit verteilten Orten st¨andigeventuell wichtige Information ¨uber Zust¨ande, Gefahren und verletzte Personen, die f¨urweitere Verwendung und Koordinierung gesammelt werden sollten. Allerdings sind Netzwerke, die auf Smartphones, Laptops und Servern basieren, nicht die einzi- gen heterogenen Netzwerke, die große Datenmengen verwalten: Sensornetzwerke und Clouds bestehen ebenfalls aus Knoten mit variierenden Eigenschaften. Im Kern all dieser verteilen heterogenen Netzw- erken besteht die Notwendigkeit, den variierenden Zugang der Knoten zu Ressourcen zu ber¨ucksichtigen und die Gesamtlast durch kurze Wege zwischen den Speicherungsorten und Anfrageorten der Daten m¨oglichst zu minimieren. All dies ist allerdings einer hohen Verf¨ugbarkeit der Daten unterstellt und es sollte sogar angestrebt werden die Verf¨ugbarkeit der Daten gerade durch das Ressourcen- und Loka- tionsbewusstsein zu verbessern. Die hier vorgestellte Arbeit konzentriert sich auf die Integration von Ressourcen- und Lokationsinfor- mationen f¨ureine robuste Datenverwaltung in verteilten, vielleicht sogar Peer-to-Peer, Netzwerken. Um verschiedene ressourcen- und lokationsbewusste Ans¨atzeauszuwerten und zu vergleichen, wurden Taxonomien zur Klassifizierung der Nutzung von Ressourcen und Entfernungen entwickelt. Uber¨ Ro- bustheit, Ressourcenbewusstsein und Lokationsbewusstsein hinaus wurden vier weitere Anforderungen f¨urdie zentralen betrachteten Anwendungsf¨allehergeleitet: Selbstorganisation, Skalierbarkeit, Lastbal- ancierung und Datenkonsistenz. Ein strukturierter Netzwerkansatz wurde gew¨ahlt, um Verf¨ugbarkeits- garantien f¨urdie gespeicherten Daten bieten zu k¨onnen. Ein Mangel an strukturierten Ans¨atzen,die sowohl Ressourcen- als auch Lokationsbewusstsein nutzen, f¨uhrtezu der Entwicklung von zwei neuen verteilten Hashtabellen (weiter DHT genannt): Resource Based Finger Management (RBFM) und Hierarchical Resource Management (HRM), die mehr oder weniger auf der existierenden Chord DHT aufbauen und ihre O(log N) Routingkomplexit¨atbeibehal- ten. Diese zwei DHTs nutzen grunds¨atzlich unterschiedliche Ans¨atzef¨urden Aufbau des Overlays. So bilden die flache RBFM und die hierarchische HRM eine Grundlage, mit der die Eignung von flachen und hierarchischen Overlaystrukturen f¨urRessourcen- als auch Lokationsbewusstsein verglichen werden kann. Dar¨uber hinaus verwendet HRM eine variable Anzahl an Hierarchieebenen, womit ein Vergleich zwischen verschiedenen Ebenenanzahlen erm¨oglicht wird. Weiterhin werden eine zus¨atzliche hybride Version von beiden DHTs sowie eine cluster-basierte Version von RBFM f¨urad hoc Netzw- erke beschrieben und f¨ursimulationsbasierte Vergleiche benutzt. Eine mathematische Analyse und simulationsbasierte Evaluation der entwickelten DHTs zeigen, wie Ressourcenbewusstsein sowohl die Lebensdauer der Knoten als auch die Erfolgsrate der Anfragen gegen¨uber einem v¨ollignaiven Ansatz und einen nur lokationsbewussten Ansatz um das zweifache erh¨oht, wenn angenommen wird, dass die Ausfallwahrscheinlichkeit der Knoten mit den Ressourcen der Knoten korreliert. Allerdings wurde fest- gestellt, dass eine hohe Anzahl von Hierarchieebenen die gesamte Routing- und Wartungslast ebenfalls erh¨oht und somit die Lebensdauer der Knoten reduziert, sodass eine niedrige Ebenenanzahl von Vorteil ist. Um zu versichern, dass Daten nicht verloren gehen, wenn Knoten unerwartet das Netzwerk ver- lassen, ben¨otigenDHTs Replikation. Deshalb wurde eine Replikationsstrategie entwickelt, welche die resourcen- und lokationsbewusste Struktur der vorgestellten DHTs ausnutzt. Diese Strategie erh¨oht somit das Ressourcen- und Lokationsbewusstsein w¨ahrenddie Gesamtlast f¨urder Replikation ver- ringert wird. Eine mathematische Analyse zeigt, wie die Anzahl der ben¨otigtenReplikate signifikant gesenkt werden kann um eine vorgegebene Verf¨ugbarkeitswahrscheinlichkeit zu erreichen, w¨ahrenddie ¨ubrigeRessourcenlast von den schwachen auf den starken Knoten verschoben wird. Acknowledgements I'd like to thank first and foremost Stephan Baumann for providing me with hurdles that have encouraged me to grow in ways that I never thought possible, believing that I would find my way when I couldn't see the end of the tunnel, and shouldering triple