Instituto De Pesquisas Tecnológicas Do Estado De São Paulo ANDERSON TADEU MILOCHI Grids De Dados: Implementação E Avaliaçã

Total Page:16

File Type:pdf, Size:1020Kb

Instituto De Pesquisas Tecnológicas Do Estado De São Paulo ANDERSON TADEU MILOCHI Grids De Dados: Implementação E Avaliaçã Instituto de Pesquisas Tecnológicas do Estado de São Paulo ANDERSON TADEU MILOCHI Grids de Dados: Implementação e Avaliação do Grid Datafarm – Gfarm File System – como um sistema de arquivos de uso genérico para Internet São Paulo 2007 Ficha Catalográfica Elaborada pelo Departamento de Acervo e Informação Tecnológica – DAIT do Instituto de Pesquisas Tecnológicas do Estado de São Paulo - IPT M661g Milochi, Anderson Tadeu Grids de dados: implementação e avaliação do Grid Datafarm – Gfarm File System como um sistema de arquivos de uso genérico para internet. / Aderson Tadeu Milochi. São Paulo, 2007. 149p. Dissertação (Mestrado em Engenharia de Computação) - Instituto de Pesquisas Tecnológicas do Estado de São Paulo. Área de concentração: Redes de Computadores. Orientador: Prof. Dr. Sérgio Takeo Kofuji 1. Sistema de arquivo 2. Internet (redes de computadores) 3. Grid Datafarm 4. Data Grid 5. Máquina virtual 6. NISTNet 7. Arquivo orientado a serviços 8. Tese I. Instituto de Pesquisas Tecnológicas do Estado de São Paulo. Coordenadoria de Ensino Tecnológico II.Título 07-20 CDU 004.451.52(043) ANDERSON TADEU MILOCHI Grids de Dados: Implementação e Avaliação do Grid Datafarm – Gfarm File System - como um sistema de arquivos de uso genérico para Internet Dissertação apresentada ao Instituto de Pesquisas Tecnológicas do Estado de São Paulo - IPT, para obtenção do título de Mestre em Engenharia de Computação Área de concentração: Redes de Computadores Orientador: Prof. Dr. Sérgio Takeo Kofuji São Paulo Março 2007 A Deus, o Senhor de tudo, Mestre dos Mestres, o único Caminho, Verdade e Vida. À minha esposa, pelo seu incondicional apoio apesar da dolorosa solidão. À minha filha, pela compreensão nos meus constantes momentos de isolamento. Aos meus pais, Rudinei e Eneida, instrumentos de vida, apoio e amor. AGRADECIMENTOS Ao meu orientador, Prof. Dr. Sérgio Takeo Kofuji, pela atenção, inteligência e expressivo auxílio na concepção e desenvolvimento desta dissertação, fazendo-a reconhecida dentro de seletos grupos de pesquisa na área de armazenamento em rede. A todos os professores do Mestrado em Engenharia de Computação do IPT, pelo grande conhecimento partilhado durante toda caminhada, especialmente aos professores Dr. Antonio Rigo e Dr. Paulino NG, participantes ativos da etapa final. Ao coordenador do C.E.T., o Prof. Dr. Mario Miyake, pelo apoio e oportunidade no desenvolvimento de uma pesquisa para o IPT, que me permitiu custear toda a fase da dissertação. Ao Prof. Dr. Armando Silvestre, pela amizade e apoio em fazer a revisão do texto e forma deste trabalho. Aos colaboradores da FIAP, especialmente aos profissionais do Departamento de Informática, pelo empréstimo de equipamento para os experimentos. Aos meus incansáveis irmãos de luta, Ibsen Marques e Armando Mizumachi, pelo auxílio em tantas vezes suportar minha ausência na Coverex Informática, além de me proporcionarem tranqüilidade, mediante muito empenho e honestidade. A todos os funcionários da Coverex que me auxiliaram direta ou indiretamente no desenvolvimento deste trabalho, principalmente contornando as situações críticas nos meus momentos de ausência. Aos grandes amigos, padres Leonardo Cruz, Orlando Arias e Miguel Vallejo, incentivadores muito fortes nas palavras e orações, que muito me fortaleceram quando o cansaço queria vencer. Aos amigos da Paróquia São João Batista da Vila Mira, que com suas orações também foram incentivadores na caminhada. Ao Instituto de Pesquisas Tecnológicas do Estado de São Paulo - IPT, pelo apoio direto ou indireto na realização deste trabalho. RESUMO A computação em grid tem sido objeto de intensas pesquisas em razão da sua proposta de, ao virtualizar os recursos computacionais, permitir a sua alocação dinâmica tanto para aplicações científicas quanto para as comerciais. Isso se dá graças às suas características de flexibilidade, escalabilidade e otimização, visando a uma arquitetura fortemente orientada a serviços e à colaboração em larga escala. Seu uso tem sido observado em projetos científicos como o SETI@home, grids de sensores, TeraGrid, myGrid, GriPhyN e o Projeto OurGrid no Brasil, visando federar capacidades computacionais interconectadas em redes como a Internet. Tipicamente emprega plataformas diversificadas de hardware e software, numa função de consolidação que visa à escalabilidade. Entre as capacidades computacionais está o armazenamento de dados, cuja federação forma os grid de dados, os quais podem ser organizados e acessados com um sistema de arquivos de grid. O objetivo deste trabalho é avaliar a implementação, funcionalidade e desempenho do sistema de arquivos de grid Gfarm - uma implementação de referência da arquitetura Grid Datafarm - a ser usado como um sistema de arquivos de uso geral para a Internet. O trabalho foi desenvolvido mediante pesquisa conceitual sobre a computação em grid, grids de dados, sistemas de arquivos paralelos, máquinas virtuais e emulador de rede, fundamentando um experimento em laboratório com a instalação, configuração e análise funcional do Gfarm em condições de rede emuladas pelo NIST Net. O comportamento do conjunto foi observado ao variarem-se condições como largura de banda e atraso, perante o armazenamento e uso de diversas classes de conteúdo, observando também as condições de tolerância a falhas. Adicionalmente, para explorar as condições reais do emprego em múltiplos sistemas operacionais e a facilidade de implementação, dois nós de armazenamento foram implementados com máquinas virtuais Microsoft Virtual PC 2004 executando Linux Fedora Core 5. Os resultados mostraram reais condições de implementação e funcionalidade do Gfarm como solução de sistema de arquivos de uso geral para Internet, suportando a integração com diversas plataformas e empregando equipamentos de uso cotidiano, operando como repositório para arquivos de propósito geral ou biblioteca digital. Palavras-chave: Grids de dados, Grid Datafarm, Gfarm, Grid, Máquinas virtuais, NIST Net, Sistema de arquivos ABSTRACT Data Grids: Deployment and Evaluation of Grid Datafarm – Gfarm file system – as an Internet general-purpose file system Grid computing has been intensely researched due to its proposal of, in virtualizing computing resources, providing their dynamic allocation for scientific and commercial applications, thanks to features such as flexibility, scalability and optimization, targeting a service-oriented architecture and large-scale collaboration. Its use has been noticed in scientific projects such as sensors grids, SETI@home, TeraGrid, myGrid, GriPhyn and OurGrid in Brazil, aiming to federate interconnected computing capabilities in networks as the Internet, typically employing different hardware and software platforms, in a consolidation function that aims at scalability. The data storage may be one of these capabilities, so that it is federated to form data grids, which can be organized and accessed using a grid file system. The purpose of this work is to evaluate the deployment, functionality and performance of Gfarm grid file system – a reference implementation of Grid Datafarm architecture – to be used as a general-purpose Internet file system. The work was developed using available literatures about grid computing, data grids, parallel file systems, virtual machines and network emulation, serving as the basis to build an experimental scenario where Gfarm was installed, configured and functionally analyzed in an emulated network environment provided by NIST Net. The behavior of the scenario was observed when varying network conditions such as bandwidth and delay, facing the storage and use of different classes of content, noticing the fault tolerance conditions as well. Besides, in order to explore the real possibilities of employing multiple operating systems, two storage nodes were implemented using Microsoft Virtual PC 2004 virtual machines hosting Linux Fedora Core 5. The results showed real deployment conditions and functionality of Gfarm, as an Internet general-purpose file system solution, supporting the integration with multiple platforms and employing commodity hardware, operating as a file repository for general-purpose or digital library files. Keywords: Data Grids, File system, Gfarm, Grid, Grid Datafarm, NIST Net, Virtual machines LISTA DE ILUSTRAÇÕES Figura 1 - Articulação do trabalho....................................................................................27 Figura 2 – Cenário inicial de implementação do experimento.........................................28 Figura 3 – Exemplo de gráfico gerado a partir de dados coletados pelo IOzone.............31 Figura 4– A arquitetura de grid em camadas e seu relacionamento com a arquitetura de protocolo da Internet.........................................................................................................34 Figura 5 – Gráfico gerado a partir de dados coletados pelo IOzone com principais regiões demarcadas .......................................................................................................................43 Figura 6 – Arquitetura e elementos do Grid Datafarm – Gfarm File System...................47 Figura 7 – Cenário final do experimento com o Gfarm (referente ao quadro 10)............60 Figura 8 – Tela gráfica de parametrização do NIST Net..................................................71 Figura 9 – Listagem de diretório do Gfarm com o uso da biblioteca syscall-hook..........77 Figura 10 – Visualização da localização de arquivos com “gfwhere” e “gfront” ............77 Figura 11 – IOzone local - Escrita – metasvr.grid.local
Recommended publications
  • Comparison of Kernel and User Space File Systems
    Comparison of kernel and user space file systems — Bachelor Thesis — Arbeitsbereich Wissenschaftliches Rechnen Fachbereich Informatik Fakultät für Mathematik, Informatik und Naturwissenschaften Universität Hamburg Vorgelegt von: Kira Isabel Duwe E-Mail-Adresse: [email protected] Matrikelnummer: 6225091 Studiengang: Informatik Erstgutachter: Professor Dr. Thomas Ludwig Zweitgutachter: Professor Dr. Norbert Ritter Betreuer: Michael Kuhn Hamburg, den 28. August 2014 Abstract A file system is part of the operating system and defines an interface between OS and the computer’s storage devices. It is used to control how the computer names, stores and basically organises the files and directories. Due to many different requirements, such as efficient usage of the storage, a grand variety of approaches arose. The most important ones are running in the kernel as this has been the only way for a long time. In 1994, developers came up with an idea which would allow mounting a file system in the user space. The FUSE (Filesystem in Userspace) project was started in 2004 and implemented in the Linux kernel by 2005. This provides the opportunity for a user to write an own file system without editing the kernel code and therefore avoid licence problems. Additionally, FUSE offers a stable library interface. It is originally implemented as a loadable kernel module. Due to its design, all operations have to pass through the kernel multiple times. The additional data transfer and the context switches are causing some overhead which will be analysed in this thesis. So, there will be a basic overview about on how exactly a file system operation takes place and which mount options for a FUSE-based system result in a better performance.
    [Show full text]
  • Accelerating Big Data Analytics on Traditional High-Performance Computing Systems Using Two-Level Storage Pengfei Xuan Clemson University, [email protected]
    Clemson University TigerPrints All Dissertations Dissertations December 2016 Accelerating Big Data Analytics on Traditional High-Performance Computing Systems Using Two-Level Storage Pengfei Xuan Clemson University, [email protected] Follow this and additional works at: https://tigerprints.clemson.edu/all_dissertations Recommended Citation Xuan, Pengfei, "Accelerating Big Data Analytics on Traditional High-Performance Computing Systems Using Two-Level Storage" (2016). All Dissertations. 2318. https://tigerprints.clemson.edu/all_dissertations/2318 This Dissertation is brought to you for free and open access by the Dissertations at TigerPrints. It has been accepted for inclusion in All Dissertations by an authorized administrator of TigerPrints. For more information, please contact [email protected]. ACCELERATING BIG DATA ANALYTICS ON TRADITIONAL HIGH-PERFORMANCE COMPUTING SYSTEMS USING TWO-LEVEL STORAGE A Dissertation Presented to the Graduate School of Clemson University In Partial Fulfillment of the Requirements for the Degree Doctor of Philosophy Computer Science by Pengfei Xuan December 2016 Accepted by: Dr. Feng Luo, Committee Chair Dr. Pradip Srimani Dr. Rong Ge Dr. Jim Martin Abstract High-performance Computing (HPC) clusters, which consist of a large number of compute nodes, have traditionally been widely employed in industry and academia to run diverse compute-intensive applications. In recent years, the revolution in data-driven science results in large volumes of data, often size in terabytes or petabytes, and makes data-intensive applications getting exponential growth. The data-intensive computing presents new challenges to HPC clusters due to the different workload characteristics and optimization objectives. One of those challenges is how to efficiently integrate software frameworks developed for big data analytics, such as Hadoop and Spark, with traditional HPC systems to support both data-intensive and compute-intensive workloads.
    [Show full text]
  • Optimizing Local File Accesses for FUSE-Based Distributed Storage
    Optimizing Local File Accesses for FUSE-Based Distributed Storage Shun Ishiguro∗ Jun Murakami∗ Yoshihiro Oyama∗z Osamu Tatebeyz ∗Department of Informatics, The University of Electro-Communications Email: fshun,[email protected], [email protected] yFaculty of Engineering, Information and Systems, University of Tsukuba Email: [email protected] zJapan Science and Technology Agency, CREST Abstract—Modern distributed file systems can store huge these communications between the kernel module and the amounts of information while retaining the benefits of high reli- userland daemon involve frequent memory copies and context ability and performance. Many of these systems are prototyped switches, they introduce significant runtime overhead. The with FUSE, a popular framework for implementing user-level file systems. Unfortunately, when these systems are mounted framework forces applications to access data in the mounted on a client that uses FUSE, they suffer from I/O overhead file system via the userland daemon, even when the data is caused by extra memory copies and context switches during stored locally and could be accessed directly. The memory local file access. Overhead imposed by FUSE on distributed copies also increase memory consumption because redundant file systems is not small and may significantly degrade the data is stored in different page cache. performance of data-intensive applications. In this paper, we propose a mechanism that achieves rapid local file access in In this paper, we propose a mechanism that allows appli- FUSE-based distributed file systems by reducing the number cations to access local storage directly via the FUSE kernel of memory copies and context switches.
    [Show full text]
  • Design of Store-And-Forward Servers for Digital Media Distribution University of Amsterdam Master of Science in System and Network Engineering
    Design of store-and-forward servers for digital media distribution University of Amsterdam Master of Science in System and Network Engineering Class of 2006-2007 Dani¨el S´anchez ([email protected]) 27th August 2007 Abstract Production of high quality digital media is increasing in both the commercial and academic world. This content needs to be distributed to end users on demand and efficiently. Initiatives like CineGrid [1] push the limit looking at the creation of content distribution centres connected through dedicated optical circuits. The research question of this project is the following: “What is the optimal architecture for the (CineGrid) storage systems that store and forward content files of a size of hundreds of GBs?” First I made an overview of the current situation. At the moment the Rembrandt cluster nodes [16] are used in the storage architecture. All data has to be transferred manually to the nodes via FTP. This is not preferred, because administration is difficult. Therefore a list of criteria is made for the new storage architecture. Important criteria are bandwidth (6.4 Gb/s) and space (31.2 TB a year and expandable). I made a comparison between open source distributed parallel file systems based on these criteria. Lustre and GlusterFS turned out to be the best of these file systems according to the criteria. After that I proposed two architectures which use these file systems. The first architecture contains only cluster nodes and the second architecture contains cluster nodes and a SAN. In the end it is recommended to install GlusterFS in the first architecture on the existing DAS- 3 nodes [15] with Ethernet as interconnect network.
    [Show full text]