Instituto De Pesquisas Tecnológicas Do Estado De São Paulo ANDERSON TADEU MILOCHI Grids De Dados: Implementação E Avaliaçã

Instituto de Pesquisas Tecnológicas do Estado de São Paulo ANDERSON TADEU MILOCHI Grids de Dados: Implementação e Avaliação do Grid Datafarm – Gfarm File System – como um sistema de arquivos de uso genérico para Internet São Paulo 2007 Ficha Catalográfica Elaborada pelo Departamento de Acervo e Informação Tecnológica – DAIT do Instituto de Pesquisas Tecnológicas do Estado de São Paulo - IPT M661g Milochi, Anderson Tadeu Grids de dados: implementação e avaliação do Grid Datafarm – Gfarm File System como um sistema de arquivos de uso genérico para internet. / Aderson Tadeu Milochi. São Paulo, 2007. 149p. Dissertação (Mestrado em Engenharia de Computação) - Instituto de Pesquisas Tecnológicas do Estado de São Paulo. Área de concentração: Redes de Computadores. Orientador: Prof. Dr. Sérgio Takeo Kofuji 1. Sistema de arquivo 2. Internet (redes de computadores) 3. Grid Datafarm 4. Data Grid 5. Máquina virtual 6. NISTNet 7. Arquivo orientado a serviços 8. Tese I. Instituto de Pesquisas Tecnológicas do Estado de São Paulo. Coordenadoria de Ensino Tecnológico II.Título 07-20 CDU 004.451.52(043) ANDERSON TADEU MILOCHI Grids de Dados: Implementação e Avaliação do Grid Datafarm – Gfarm File System - como um sistema de arquivos de uso genérico para Internet Dissertação apresentada ao Instituto de Pesquisas Tecnológicas do Estado de São Paulo - IPT, para obtenção do título de Mestre em Engenharia de Computação Área de concentração: Redes de Computadores Orientador: Prof. Dr. Sérgio Takeo Kofuji São Paulo Março 2007 A Deus, o Senhor de tudo, Mestre dos Mestres, o único Caminho, Verdade e Vida. À minha esposa, pelo seu incondicional apoio apesar da dolorosa solidão. À minha filha, pela compreensão nos meus constantes momentos de isolamento. Aos meus pais, Rudinei e Eneida, instrumentos de vida, apoio e amor. AGRADECIMENTOS Ao meu orientador, Prof. Dr. Sérgio Takeo Kofuji, pela atenção, inteligência e expressivo auxílio na concepção e desenvolvimento desta dissertação, fazendo-a reconhecida dentro de seletos grupos de pesquisa na área de armazenamento em rede. A todos os professores do Mestrado em Engenharia de Computação do IPT, pelo grande conhecimento partilhado durante toda caminhada, especialmente aos professores Dr. Antonio Rigo e Dr. Paulino NG, participantes ativos da etapa final. Ao coordenador do C.E.T., o Prof. Dr. Mario Miyake, pelo apoio e oportunidade no desenvolvimento de uma pesquisa para o IPT, que me permitiu custear toda a fase da dissertação. Ao Prof. Dr. Armando Silvestre, pela amizade e apoio em fazer a revisão do texto e forma deste trabalho. Aos colaboradores da FIAP, especialmente aos profissionais do Departamento de Informática, pelo empréstimo de equipamento para os experimentos. Aos meus incansáveis irmãos de luta, Ibsen Marques e Armando Mizumachi, pelo auxílio em tantas vezes suportar minha ausência na Coverex Informática, além de me proporcionarem tranqüilidade, mediante muito empenho e honestidade. A todos os funcionários da Coverex que me auxiliaram direta ou indiretamente no desenvolvimento deste trabalho, principalmente contornando as situações críticas nos meus momentos de ausência. Aos grandes amigos, padres Leonardo Cruz, Orlando Arias e Miguel Vallejo, incentivadores muito fortes nas palavras e orações, que muito me fortaleceram quando o cansaço queria vencer. Aos amigos da Paróquia São João Batista da Vila Mira, que com suas orações também foram incentivadores na caminhada. Ao Instituto de Pesquisas Tecnológicas do Estado de São Paulo - IPT, pelo apoio direto ou indireto na realização deste trabalho. RESUMO A computação em grid tem sido objeto de intensas pesquisas em razão da sua proposta de, ao virtualizar os recursos computacionais, permitir a sua alocação dinâmica tanto para aplicações científicas quanto para as comerciais. Isso se dá graças às suas características de flexibilidade, escalabilidade e otimização, visando a uma arquitetura fortemente orientada a serviços e à colaboração em larga escala. Seu uso tem sido observado em projetos científicos como o SETI@home, grids de sensores, TeraGrid, myGrid, GriPhyN e o Projeto OurGrid no Brasil, visando federar capacidades computacionais interconectadas em redes como a Internet. Tipicamente emprega plataformas diversificadas de hardware e software, numa função de consolidação que visa à escalabilidade. Entre as capacidades computacionais está o armazenamento de dados, cuja federação forma os grid de dados, os quais podem ser organizados e acessados com um sistema de arquivos de grid. O objetivo deste trabalho é avaliar a implementação, funcionalidade e desempenho do sistema de arquivos de grid Gfarm - uma implementação de referência da arquitetura Grid Datafarm - a ser usado como um sistema de arquivos de uso geral para a Internet. O trabalho foi desenvolvido mediante pesquisa conceitual sobre a computação em grid, grids de dados, sistemas de arquivos paralelos, máquinas virtuais e emulador de rede, fundamentando um experimento em laboratório com a instalação, configuração e análise funcional do Gfarm em condições de rede emuladas pelo NIST Net. O comportamento do conjunto foi observado ao variarem-se condições como largura de banda e atraso, perante o armazenamento e uso de diversas classes de conteúdo, observando também as condições de tolerância a falhas. Adicionalmente, para explorar as condições reais do emprego em múltiplos sistemas operacionais e a facilidade de implementação, dois nós de armazenamento foram implementados com máquinas virtuais Microsoft Virtual PC 2004 executando Linux Fedora Core 5. Os resultados mostraram reais condições de implementação e funcionalidade do Gfarm como solução de sistema de arquivos de uso geral para Internet, suportando a integração com diversas plataformas e empregando equipamentos de uso cotidiano, operando como repositório para arquivos de propósito geral ou biblioteca digital. Palavras-chave: Grids de dados, Grid Datafarm, Gfarm, Grid, Máquinas virtuais, NIST Net, Sistema de arquivos ABSTRACT Data Grids: Deployment and Evaluation of Grid Datafarm – Gfarm file system – as an Internet general-purpose file system Grid computing has been intensely researched due to its proposal of, in virtualizing computing resources, providing their dynamic allocation for scientific and commercial applications, thanks to features such as flexibility, scalability and optimization, targeting a service-oriented architecture and large-scale collaboration. Its use has been noticed in scientific projects such as sensors grids, SETI@home, TeraGrid, myGrid, GriPhyn and OurGrid in Brazil, aiming to federate interconnected computing capabilities in networks as the Internet, typically employing different hardware and software platforms, in a consolidation function that aims at scalability. The data storage may be one of these capabilities, so that it is federated to form data grids, which can be organized and accessed using a grid file system. The purpose of this work is to evaluate the deployment, functionality and performance of Gfarm grid file system – a reference implementation of Grid Datafarm architecture – to be used as a general-purpose Internet file system. The work was developed using available literatures about grid computing, data grids, parallel file systems, virtual machines and network emulation, serving as the basis to build an experimental scenario where Gfarm was installed, configured and functionally analyzed in an emulated network environment provided by NIST Net. The behavior of the scenario was observed when varying network conditions such as bandwidth and delay, facing the storage and use of different classes of content, noticing the fault tolerance conditions as well. Besides, in order to explore the real possibilities of employing multiple operating systems, two storage nodes were implemented using Microsoft Virtual PC 2004 virtual machines hosting Linux Fedora Core 5. The results showed real deployment conditions and functionality of Gfarm, as an Internet general-purpose file system solution, supporting the integration with multiple platforms and employing commodity hardware, operating as a file repository for general-purpose or digital library files. Keywords: Data Grids, File system, Gfarm, Grid, Grid Datafarm, NIST Net, Virtual machines LISTA DE ILUSTRAÇÕES Figura 1 - Articulação do trabalho....................................................................................27 Figura 2 – Cenário inicial de implementação do experimento.........................................28 Figura 3 – Exemplo de gráfico gerado a partir de dados coletados pelo IOzone.............31 Figura 4– A arquitetura de grid em camadas e seu relacionamento com a arquitetura de protocolo da Internet.........................................................................................................34 Figura 5 – Gráfico gerado a partir de dados coletados pelo IOzone com principais regiões demarcadas .......................................................................................................................43 Figura 6 – Arquitetura e elementos do Grid Datafarm – Gfarm File System...................47 Figura 7 – Cenário final do experimento com o Gfarm (referente ao quadro 10)............60 Figura 8 – Tela gráfica de parametrização do NIST Net..................................................71 Figura 9 – Listagem de diretório do Gfarm com o uso da biblioteca syscall-hook..........77 Figura 10 – Visualização da localização de arquivos com “gfwhere” e “gfront” ............77 Figura 11 – IOzone local - Escrita – metasvr.grid.local

Load more