Yolanda Flores Salgado
Silvia Elizabeth Frausto Del Río
Joel Ireta Moreno
Leobardo Itehua Rico
Héctor Manuel Oliver Hernández
Eduardo Iván Ortega Alarcón
Eduardo Romero Arzate
El Laboratorio Nacional de Cómputo de Alto Desempeño (LANCAD) es un consorcio conformado por tres instituciones con amplia experiencia en supercómputo: el Centro de Investigación y Estudios Avanzados del IPN (Cinvestav), la Universidad Autónoma Metropolitana (UAM) y la Universidad Nacional Autónoma de México (UNAM). LANCAD se creó con el objetivo de apoyar la investigación científica nacional proporcionando servicios de cómputo de alto desempeño (CAD). Con la finalidad de explorar la integración de equipos de cómputo instalados en cada uno de los centros, el grupo técnico del LANCAD desarrolló un prototipo de cluster (1) confederado para que los usuarios ejecuten procesos indistintamente en cualquiera de los clusters CAD que lo conforman en un ambiente estandarizado. El presente artículo resume las experiencias que generó la implementación de la federación de clusters mediante el uso de Slurm Federated Scheduling, así como los retos que surgieron para su construcción, validación y pruebas.
Palabras clave:
Cómputo de Alto Desempeño, Cluster, Federación de Clusters, LANCAD, SLURM
(1) cluster es un conjunto de computadoras independientes interconectadas entre sí de forma eficiente, que funcionan como un solo recurso computacional para procesamiento paralelo o distribuido. A cada uno de los elementos del cluster se le conoce como nodo [3].
Setting up a confederated cluster for HPC with SLURM
The National High Performance Computing Laboratory (LANCAD from the spanish Laboratorio Nacional de Cómputo de Alto Desempeño) is a consortium of three institutions with large experience in supercomputing: the Center for Research and Advanced Studies of the IPN (Cinvestav from the spanish Centro de Investigaciones y Estudios Avanzados del IPN), the Autonomous Metropolitan University (UAM, from the spanish Universidad Autónoma Metropolitana) and the National Autonomous University of Mexico (UNAM, from the spanish Universidad Nacional Autónoma de México). LANCAD was created with the aim for supporting national scientific research in need of high-performance computing (HPC) services. In order to explore the integration of computer hardware installed at each of the centers, the LANCAD technical group developed a prototype of a cluster confederation so that their users can execute processes indistinctly in any of the HPC clusters of LANCAD in a standardized environment. This article summarizes the experiences on the implementation of such prototype using Slurm Federated Scheduling, as well as the challenges that have arisen in its construction, validation and testing.
Keywords:
High Performance Computing, cluter, federation of clusters, LANCAD, SLURM, high speed network.
Fecha de recepción: 2 de febrero de 2022
Fecha de publicación: junio de 2022
Web page was built with Mobirise