Position-Based Distributed Hash Tables

UNIVERSIDADE DE LISBOA FACULDADE DE CIÊNCIAS DEPARTAMENTO DE INFORMÁTICA POSITION-BASED DISTRIBUTED HASH TABLES Filipe João Boavida de Mendonça Machado de Araújo DOUTORAMENTO EM INFORMÁTICA 2005 UNIVERSIDADE DE LISBOA FACULDADE DE CIÊNCIAS DEPARTAMENTO DE INFORMÁTICA POSITION-BASED DISTRIBUTED HASH TABLES Filipe João Boavida de Mendonça Machado de Araújo DOUTORAMENTO EM INFORMÁTICA 2005 Tese orientada pelo Prof. Doutor Luís Eduardo Teixeira Rodrigues This work was partially supported by the Fundação para a Ciência e a Tecnolo- gia through the project INDIQoS POSI/CHS/41473/2001 via POSI and FEDER funds and by the European Science Foundation MiNEMA Research Network. Abstract In this thesis we want to create scalable, fault-tolerant and self-configuring dictionaries that can be deployed in a wide range of networks, including highly dynamic networks with frequent membership changes, like peer-to-peer overlay networks or wireless ad hoc networks. In recent years, distributed hash tables (DHTs) have emerged as a solution to implement large-scale dictionaries. However, given the existing bandwidth limita- tions, updating routing information in DHTs remains a challenge. Position-based routing schemes arise as an attractive solution to this problem, due to inexpensive and ubiquitous localization mechanisms. Positional information enables the cre- ation of oblivious (or memoryless) routing schemes, where the coordinates of the current forwarding node, of its neighbors and of the destination, suffice to deter- mine the next hop. Such routing schemes are very suitable to rapidly changing networks, because they require very little control information. We argue in this thesis that we can use positional information to efficiently support routing and DHT operation in wireless ad hoc and in wired networks, whenever position of nodes reflects network topology. To support this claim, we create and evaluate a number of algorithms that simultaneously support routing and DHT operation in both types of networks. KEY WORDS: Distributed Hash Table, Overlay Network, Position-Based Routing Scheme, Delaunay Triangulation, Long Range Contact. Resumo Estendido Um dicionário armazena valores que podem ser acedidos através de chaves asso- ciadas. Nos sistemas distribuídos actuais, os dicionários desempenham um papel central. Por exemplo, na Internet, quase todas as aplicações dependem de um dicionário chamado “Domain Name Service” (DNS). Esta tese aborda o problema da criação de dicionários escaláveis, tolerantes a faltas e auto-configuráveis, que possam ser aplicados numa vasta gama de redes, incluindo redes extremamente dinâmicas com mudanças frequentes de participantes. Dentro destas redes, destacam-se, apesar das suas diferenças, as redes lógicas (de overlay) entre-pares (com fios) e as rede ad hoc sem fios, por serem capazes de se auto-organizarem de forma fortemente descentralizada, mesmo em ambientes onde a participação é altamente dinâmica. Uma concretização de uma tabela de dispersão distribuída (distributed hash table, DHT) sobre redes entre-pares emerge naturalmente como uma solução para concretizar um dicionário de grande escala. Actualmente há muitas concretiza- ções de DHTs baseadas em redes lógicas entre-pares, especialmente em redes com fios, tais como o Pastry, Tapestry, Chord e CAN, para mencionar apenas algumas. No entanto, as limitações de largura de banda fazem com que a actualização de in- formação de encaminhamento permaneça muito difícil, não só em redes com fios, mas especialmente em rede ad hoc sem fios, onde a construção de uma rede lógica levanta problemas ainda mais complexos de eficiência. É neste contexto que o encaminhamento com tabelas de dispersão distribuídas baseadas em informação de localização surge como uma solução atractiva para o problema, devido, em muito, à vulgarização de mecanismos de localização baseados, por exemplo, no “Sis- tema de Posicionamento Global” (Global Positioning System, GPS). Para reduzir a informação de controlo e a memória necessária, o encaminhamento baseado em informação de localização, ou posicional, utiliza a posição geográfica dos nós para encaminhar as mensagens. Um esquema de encaminhamento posicional assume que i) os nós conhecem a sua própria posição geográfica, ii) os nós conseguem determinar a posição dos seus vizinhos, iii) os nós conseguem determinar a posição do destino e iv) a proximidade geográfica reflecte a proximidade topológica, de forma a garantir que o endereço dos nós codifica automaticamente parte da estru- tura da rede. Em geral, um esquema de encaminhamento geográfico requer que cada nó construa a sua visão parcial do grafo, recorrendo apenas a informação de vizinhos próximos. Por uma questão de economia de recursos, é comum os nós só poderem recolher informação de vizinhos que estejam a um pequeno número de saltos de distância, sendo este número tipicamente de um ou dois saltos. Con- struído este grafo, que requer uma quantidade muito limitada de memória em cada nó (O(1) em média), os nós podem utilizar um algoritmo de encaminhamento, onde as coordenadas do nó que faz o encaminhamento e do destino chegam para determinar o próximo salto. Este tipo de esquemas de encaminhamento requer muito pouca informação de controlo, sendo, por isso, perfeitamente adequado para redes em rápida mutação. A tese que este trabalho defende é que, sempre que a proximidade geográfica entre nós reflicta a topologia da rede, é possível utilizar informação de localização na construção de DHTs eficientes, quer em redes com fios, quer em redes sem fios. A utilização de informação de localização de permite resolver simultaneamente o problema do encaminhamento e o suporte da DHT. Por outras palavras, não é sequer necessário que exista qualquer esquema de encaminhamento de suporte à DHT, podendo esta funcionar sem todos os protocolos associados ao IP. É de realçar, no entanto, que quando existe um esquema de encaminhamento subja- cente, uma DHT com noção de localização pode enriquecer aplicações entre-pares com serviços como difusões ou interrogações limitadas geograficamente. Além disto, em redes com fios onde o encaminhamento IP esteja disponível, é possível enriquecer uma DHT baseada em informação de localização com contactos de longa distância, para reduzir o comprimento dos percursos. Por estas razões, o encaminhamento baseado em informação de localização pode ser usado como um componente fundamental para uma DHT eficiente, tanto em redes ad hoc sem fios, como em redes com fios. Para validar esta tese, foram criados e avaliados um conjunto de algoritmos, que são descritos brevemente de seguida, capazes de suportar simultaneamente o encaminhamento e a DHT em ambos os tipos de rede: • uma triangulação de nome “Fast Localized Delaunay triangulation” (FLDT), que cria e mantém um grafo bem conhecido de nome “Planar Localized De- launay Triangulation”, PLDel(V), em redes ad hoc sem fios dinâmicas. O grafo PLDel(V) apresenta um número de características favoráveis: pode ser construído de forma localizada, o seu custo de construção é baixo e su- porta algoritmos de encaminhamento que garantem a entrega de mensagens. Embora apresente um custo de comunicação semelhante ao de trabalhos anteriores (O(nlogn) no total, sendo n o número de nós existentes), a con- stante escondida no algoritmo FLDT é muito mais baixa, além de necessitar apenas de uma única mensagem por nó, em vez de quatro ou mais. O baixo custo do nosso algoritmo torna a utilização deste grafo viável em sistemas reais, em substituição de outros grafos como o grafo de Gabriel (GG) ou o grafo de vizinhanças relativas (RNG), que não permitem um bom desempenho do algoritmo de encaminhamento; • uma DHT que utiliza um mecanismo de agrupamento baseado em posição, para redes ad hoc sem fios, chamado “Cell Hash Routing” (CHR). A maior inovação do CHR está no facto de utilizar um grafo virtual extremamente regular para fazer o encaminhamento, com base em grupos de nós. Este agrupamento resolve automaticamente muitos dos problemas associados a esquemas de encaminhamento posicionais, por exemplo, eliminação de arestas que se intersectam. A concretização da DHT CHR utiliza um esquema de encaminhamento localizado e permite equilibrar a distribuição de de carga pelos nós. Isto torna o CHR altamente escalável relativamente não só ao tamanho da rede, mas também à densidade dos nós (versus alcance da comunicação). Estas razões fazem-nos pensar que o CHR é uma adaptação promissora do conceito de DHT às rede ad hoc sem fios; • GeoPeer, um sistema entre-pares com noção de localização, que permite concretizar uma DHT baseada em informação de localização para redes com fios. Esta DHT constrói uma triangulação de Delaunay completa. Por esta razão, pode ser vista como a arquitectura complementar para redes com fios da triangulação criada pelo algoritmo FLDT. Esta DHT pode ser utilizada para suportar aplicações com exigências de QoS, além de outros serviços baseados em posição, tais como difusões ou interrogações limitadas geograficamente; • o mecanismo “Hop Level”, que cria e mantém contactos de longa distân- cia numa rede com fios. Este mecanismo procura reduzir o número de saltos que é necessário percorrer numa rede lógica. O mecanismo “Hop Level” melhora consideravelmente o desempenho da rede GeoPeer em redes lógicas com mudanças frequentes dos seus elementos, desde que estas funcionem em cima duma rede IP. Um dos aspectos mais interessantes do mecanismo “Hop Level” é que pode ser utilizado em sistemas de armazena- mento distribuídos (Distributed Storage Systems, DSSs)

Load more