El BSC treballa en solucions proactives pel comportament temporal i la fiabilitat dels sistemes HPC en el projecte RECIPE

30 Juny 2020

Estimulat per nous dominis d’aplicació (és a dir, anàlisi computacional intensiva de dades), com ho són les noves aplicacions de computació massivament paral·leles, i per la creixent habilitat per entrar en el mercat de nous clients, el mercat de la computació d’alt rendiment (HPC, per les seves sigles en anglès) està evolucionant ràpidament. Investigadors del Barcelona Supercomputing Center-Centro Nacional de Supercomputación (BSC) estan treballant per tal d’afrontar aquest repte en el projecte europeu RECIPE, que té l’objectiu de proporcionar solucions per a gestionar aquesta complexitat i per fer que el sistema sigui fiable.

Gestor de recursos multinivell de RECIPE, amb models de fiabilitat innovadors per a una millor distribució de la càrrega de treball i una optimització dels recursos computacionals

El BSC ha desenvolupat una solució per a predir el pitjor temps d’execució de les aplicacions d’HPC en supercomputadors i centres de processament de dades, ja sigui amb arquitectures homogènies o heterogènies, i fa ús de la seva experiència en la predicció del temps d’execució en sistemes encastats crítics de temps real. Aquest solució ha cristal·litzat en una eina flexible i portable presentada com a part d’un número especial sobre computació i matemàtiques a la prestigiosa revista científica MDPI Mathematics.

Procés per predir la distribució dels pitjors temps d’execució en aplicacions HPC

El BSC també ha desenvolupat un marc per predir la degradació - i per tant la fiabilitat - de plataformes d’HPC heterogènies basat en les seves característiques físiques i la seva utilització. Aquest marc, que és conceptualment aplicable a qualsevol element informàtic o d’emmagatzematge com CPUs, GPUs, FPGAs, i qualsevol tipus de memòria, ha estat implementat específicament per a CPUs i FPGAs d’alt rendiment amb resultats prometedors.

Les solucions proactives per al comportament temporal i la fiabilitat dels sistemes HPC, més que les reactives, són la clau per gestionar de manera efectiva els seus recursos durant tota la seva vida útil”, va dir Ramon Canal, Líder Tècnic del BSC a RECIPE, Investigador Associat del Departament d’Arquitectura Computacional - Sistemes Operatius (CAOS), i Professor Titular de la UPC.

El BSC preveu la integració de tecnologies per la predicció del temps d’execució i la fiabilitat en un gestor d’execució dinàmic per a l’optimització de diferents paràmetres (com el temps d’execució, la fiabilitat i la temperatura) en plataformes HPC heterogènies que inclouen CPUs, GPUs i FPGAs. A més, les tecnologies del BSC també seran àmpliament avaluades en relació a les aplicacions dels usuaris finals, estenent els ja prometedors resultats d’aquestes tecnologies en extractes d’aplicacions HPC.

Article: On the Use of Probabilistic Worst-Case Execution Time Estimation for Parallel Applications in High Performance Systems

DOI: https://doi.org/10.3390/math8030314

Enllaç: https://www.mdpi.com/2227-7390/8/3/314

 

Sobre RECIPE

RECIPE (REliable power and time-ConstraInts-aware Predictive management of heterogeneous Exascale systems) és un projecte europeu finançat amb un pressupost de 3,2 milions d’euros, que va començar l’1 de maig de 2018 i acaba el 30 d’abril de 2021. Coordinat per Politecnico di Milano (Itàlia), el projecte reuneix un consorci multidisciplinar composat per Universitat Politècnica de València (Espanya), Centro Regionale Information Communication Technology (Itàlia), Barcelona Supercomputing Center (Espanya), Poznań Supercomputing and Networking Center (Polònia), École polytechnique fédérale de Lausanne (Suïssa), IBT Solutions (Itàlia) i Centre Hospitalier Universitaire Vaudois (Suïssa).

Per més informació, consulteu el lloc web del projecte: http://www.recipe-project.eu/

 

Aquest projecte ha rebut finançament del programa d’investigació i innovació Horizon 2020 de la Unió Europea segons l’acord no. 801137