Investigadores del BSC lideran la iniciativa europea de resiliencia en supercomputación

03 Diciembre 2020

La resiliencia es uno de los retos más importantes para los supercomputadores a exaescala porque requiere de soluciones que incluyen el hardware, software y las aplicaciones. Los investigadores del BSC – junto con un grupo de investigadores y empresas europeas – lideran la iniciativa europea de resiliencia, recientemente creada, que pretende consolidar colaboraciones entre varias comunidades en materia de resiliencia. Uno de los primeros pasos ha sido su publicación en inglés Towards Resilient EU HPC Systems: A Blueprint que cuenta con la participación de centros de investigación europeos, laboratorios estadounidenses, empresas relacionadas con la supercomputación así como proyectos europeos de investigación. El objetivo de este documento es difundir la relevancia de resiliencia en Europa así como definir buenas prácticas dirigidas a la comunidad de supercomputación.

La resiliencia representa un gran desafío para los supercomputadores, como resultado de la creciente complejidad de los mismos, tanto a nivel de componente individual en hardware y software como para la configuración de sistemas heterogéneos. La resiliencia en este tipo de sistemas es un pilar fundamental en la investigación y desarrollo: incluye fundamentos teóricos, detecta y predice errores de sistema. Para una mayor efectividad del riesgo y su mejor control, también deben tenerse en cuenta las operaciones de las infraestructuras y su coste.

“El objetivo de esta iniciativa europea es crear una hoja de ruta hacia sistemas de computación resilientes así como sincronizar el desarrollo de soluciones integrales de pila completa llevado a cabo en varios proyectos de investigación europeos”, afirma Petar Radojković, líder del equipo de sistemas de memoria en el departamento de Ciencias de Computación del BSC.

El documento Towards Resilient EU HPC Systems: A Blueprint analiza una amplia gama de mecanismos de resiliencia y ofrece buenas prácticas en sistemas de computación a gran escala. Estas pautas son útiles al asignar recursos disponibles, así como para orientar a los investigadores e instituciones de investigación y mejorar en el ámbito de resiliencia. Aunque este trabajo se centra en las necesidades de prototipos, pilotos y sistemas de producción de supercomputadores de próxima generación europeos, los principios definidos también se pueden aplicar a nivel mundial. La actual versión del documento analiza nodos de supercomputación individuales incluyendo CPU, memoria, interconexiones entre nodos y aceleradores basados ​​en FPGA. En un futuro, se prevé incluir también GPUs, aceleradores vectoriales, interconexión de redes y almacenamiento.

Las recomendaciones recogidas en el documento ya se han utilizado para definir características de resiliencia en sistemas Testbed que serán uno de los resultados del proyecto europeo EuroEXA. Otros proyectos europeos involucrados en la iniciativa europea de resiliencia HPC también seguirán esta tendencia.

Sobre la iniciativa europea de resiliencia

La iniciativa europea de resiliencia en supercomputación, lanzada recientemente, encabeza un debate en Europa sobre la resiliencia en supercomputación. Reúne a expertos académicos e industriales que cubren un amplio espectro de tecnologías de sistemas informáticos para investigar e implementar la resiliencia en la computación de altas prestaciones. El principal objetivo de esta iniciativa es fomentar la colaboración entre diversas comunidades. Más información: https://resilienthpc.eu/