Sistemas De Archivos Distribuido Para Clúster HPC Utilizando Ceph

Departamento de Telecomunicaciones y Electrónica Título: Sistemas de archivos distribuido para Clúster HPC utilizando Ceph Autor: Daniel Placencia Alvarez Tutor: Ing. Javier Antonio Ruiz Bosch , Junio, 2019 Este documento es Propiedad Patrimonial de la Universidad Central “Marta Abreu” de Las Villas, y se encuentra depositado en los fondos de la Biblioteca Universitaria “Chiqui Gómez Lubian” subordinada a la Dirección de Información Científico Técnica de la mencionada casa de altos estudios. Se autoriza su utilización bajo la licencia siguiente: Atribución- No Comercial- Compartir Igual Para cualquier información contacte con: Dirección de Información Científico Técnica. Universidad Central “Marta Abreu” de Las Villas. Carretera a Camajuaní. Km 5½. Santa Clara. Villa Clara. Cuba. CP. 54 830 Teléfonos.: +53 01 42281503-1419 Hago constar que el presente trabajo de diploma fue realizado en la Universidad Central “Marta Abreu” de Las Villas como parte de la culminación de estudios de la especialidad de Ingeniería en Telecomunicaciones y Electrónica, autorizando a que el mismo sea utilizado por la Institución, para los fines que estime conveniente, tanto de forma parcial como total y que además no podrá ser presentado en eventos, ni publicados sin autorización de la Universidad. Firma del Autor Los abajo firmantes certificamos que el presente trabajo ha sido realizado según acuerdo de la dirección de nuestro centro y el mismo cumple con los requisitos que debe tener un trabajo de esta envergadura referido a la temática señalada. Firma del Tutor Firma del Jefe de Departamento donde se defiende el trabajo Firma del Responsable de Información Científico-Técnica i PENSAMIENTO Muchos de los fracasos en la vida lo experimentan personas que no se dan cuenta de cuan cerca estuvieron del éxito cuando decidieron darse por vencidos. Thomas Edison ii DEDICATORIA A mi familia, especialmente a mis padres y a mi tía Carmen Rosa, por guiarme, apoyarme incondicionalmente y estar presente en cada momento. iii AGRADECIMIENTOS - A mi familia, especialmente a mis padres, mi hermana y mi tía Carmen Rosa, por su cariño, su apoyo incondicional y su dedicación. - A mi tutor Javier Antonio Ruiz Bosch, por su dedicación. - A mis compañeros de aula, que se convirtieron en grandes amigos en los peores momentos. - A todos los profesores que durante estos cinco años han contribuido a mi formación profesional. - A todos aquellos a los que de una forma u otra participaron en la realización de este trabajo. iv TAREA TÉCNICA Para el logro de los objetivos propuestos en el presente trabajo, la investigación sigue una línea de trabajo definida por un grupo de tareas, las cuales son: Revisión bibliográfica referida a los sistemas de almacenamiento de datos para Clúster HPC. Análisis del hardware disponible para la implementación de esta tecnología. Selección de la configuración de hardware y software más apropiada para implementar este sistema en el escenario de desarrollo. Instalación, configuración y despliegue del software propuesto. Evaluación del desempeño del sistema con diferentes herramientas. Comparación del sistema propuesto con los sistemas actualmente implementados. Análisis de los resultados de la implementación y las comparaciones realizadas. Confección del trabajo de diploma. Firma del Autor Firma del Tutor v RESUMEN Los sistemas de archivos distribuidos paralelos se hacen cada vez más populares y usados por las grandes posibilidades que brindan. Ceph se presenta como una plataforma de almacenamiento unificada, definida por software, con excelentes prestaciones para ambientes donde la velocidad es determinante como es el caso de los clústeres HPC. La presente investigación se dedica a la implementación de un sistema de archivos Ceph para el clúster HPC del Centro de Datos de la UCLV. Inicialmente se analizan las principales tecnologías de almacenamiento empleadas en la actualidad. Se explica paso a paso el proceso de instalación de un sistema de archivos Ceph. Se presenta el proceso de administración y gestión de un clúster Ceph, resaltando las principales variables que se monitorean y los fallos más comunes. Se realizan pruebas al clúster Ceph de estabilidad y rendimiento empleando diferentes herramientas. Además, se realizan pruebas de rendimiento al sistema NFS que brinda servicios al HPC, lo que permite realizar importantes comparaciones. Como conclusión se obtiene que el clúster Ceph permanece estable ante fallos de software y hardware que no superen su dominio de fallo y presenta un alto rendimiento en todas las operaciones con archivos, superior al del servidor NFS. vi ÍNDICE PENSAMIENTO ...................................................................................................................... i DEDICATORIA ...................................................................................................................... ii AGRADECIMIENTOS .......................................................................................................... iii TAREA TÉCNICA ................................................................................................................. iv RESUMEN .............................................................................................................................. v INTRODUCCIÓN ................................................................................................................... 1 CAPÍTULO 1. SISTEMAS DE ARCHIVOS ...................................................................... 4 1.1 Sistemas de archivos tradicionales ................................................................... 5 1.1.1 ¿Qué es un sistema de archivos? ........................................................... 5 1.1.2 Sistemas de archivos tradicionales y modernos ..................................... 6 1.2 Soluciones para alto desempeño y escalabilidad ............................................... 8 1.2.1 Sistemas de archivos de red ................................................................... 8 1.2.4 Almacenamiento basado en objetos y basado en bloques ..................... 15 1.3 Arquitecturas modernas para clúster HPC .................................................... 16 1.3.1 GPFS .................................................................................................. 16 1.3.2 HDFS .................................................................................................. 17 1.3.3 BeeGFS ............................................................................................... 18 1.3.4 Lustre ................................................................................................. 19 1.3.5 GlusterFS ............................................................................................ 21 1.3.6 Ceph ................................................................................................... 23 1.4 Selección del sistema de archivos a implementar en el Clúster HPC .............. 26 CAPÍTULO 2. IMPLEMENTACIÓN DEL SISTEMA DE ARCHIVOS CEPH EN EL CLÚSTER HPC .................................................................................................................... 29 2.1 Preparación del hardware y el software necesario ......................................... 30 2.1.1 Arquitectura básica del clúster Ceph .................................................. 30 2.1.2 Recomendaciones del hardware y software ......................................... 33 2.1.3 Preparación del entorno de instalación ............................................... 37 2.2 Procedimiento de instalación de Ceph empleando ceph-deploy ....................... 39 2.3 Administración y supervisión del clúster Ceph .............................................. 48 2.4 Conclusiones del capítulo ............................................................................... 52 vii CAPÍTULO 3. RESULTADOS DE LA IMPLEMENTACIÓN DEL SISTEMA DE ARCHIVOS CEPH EN EL CLÚSTER HPC ......................................................................... 53 3.1 Estabilidad del clúster Ceph ante fallos de software y hardware .................... 54 3.2 Rendimiento del clúster Ceph ........................................................................ 57 3.2.1 RADOS Bench .................................................................................... 58 3.2.2 DD ....................................................................................................... 60 3.2.3 Bonnie++ ............................................................................................. 61 3.3 Comparación con el sistema de archivos NFS ................................................ 64 3.4 Análisis de los resultados obtenidos ................................................................ 66 3.5 Conclusiones del capítulo ............................................................................... 66 CONCLUSIONES Y RECOMENDACIONES ...................................................................... 67 Conclusiones .............................................................................................................. 67 Recomendaciones ....................................................................................................... 68 BIBLIOGRAFÍA ................................................................................................................... 69 ANEXOS ............................................................................................................................... 72 Anexo I: Códigos de chequeo de salud del clúster Ceph más comunes

Sistemas De Archivos Distribuido Para Clúster HPC Utilizando Ceph

LLNL Computation Directorate Annual Report (2014)

Replication, History, and Grafting in the Ori File System

The Evolution of File Systems

Content Addressed, Versioned, P2P File System (DRAFT 3)

The File Systems Evolution

February 2012 Vol

Máster En Bioinformática Y Biología Computacional Trabajo Fin De

Filesystems” by Vince Freeh (NCSU) Journaling

Fossil an Archival File Server

Snapshots in a Flash with Iosnap

Comparison of File Systems

Replication, History, and Grafting in the Ori File System