Les dades de l'EGA Federat s'allotgen a les instal·lacions del BSC, fet que mostra el paper crucial dels centres de supercomputació en l'intercanvi i l'anàlisi de dades a gran escala en benefici de la investigació biomèdica global
Aquesta nova associació consolida l’EGA Federat com el repositori global més important per a l'intercanvi segur de dades genòmiques i de salut humana
En una fita important per a la recerca biomèdica internacional i el futur de la medicina personalitzada, l'Arxiu Canadenc del Genoma-Fenoma (CGA) s'ha unit a l'Arxiu Europeu del Genoma-Fenoma Federat (Federated EGA), fet que suposa la primera expansió significativa de la federació fora d'Europa.
L'EGA Federat està custodiat conjuntament pel Centre de Regulació Genòmica (CRG) a Barcelona i l'Institut Europeu de Bioinformàtica de l'EMBL (EMBL-EBI) al Regne Unit. Es va construir seguint el model de governança de dades de l'Arxiu Europeu del Genoma-Fenoma, finançat per la Fundació "la Caixa".
L'anunci coincideix amb la publicació d'un document de referència (3 de març de 2025) a Nature Genetics que exposa els desafiaments pràctics i de regulació que afronten les iniciatives d'intercanvi de dades federades, i presenta la visió de l'EGA Federat per fer possible el descobriment global i l'accés a dades "òmiques" humanes confidencials.
"Es tracta d'un moment històric per a la comunitat científica mundial", afirma el professor Arcadi Navarro, professor d’investigació ICREA a la Universitat Pompeu Fabra i director de l'equip EGA al Centre de Regulació Genòmica.
"Els desafiaments de salut mundials, com les pandèmies i les malalties rares, no respecten les fronteres nacionals. En expandir-nos més enllà d'Europa i afegir el node canadenc, consolidem l'EGA Federat com el recurs més complet, segur i divers del món per a dades genòmiques i de salut que permet abordar aquestes qüestions urgents. Això tindrà un impacte transformador en els descobriments científics i les iniciatives de medicina personalitzada a tot el món", afegeix el Dr. Navarro.
La visió de l’EGA Federat, al descobert a Nature Genetics
Equips científics de tot el món confien en l'accés a conjunts de dades sòlides i diverses per avançar en el coneixement dels mecanismes de la salut i la malaltia humanes. En combinar de forma segura les dades de totes les poblacions, països i institucions, la ciència pot millorar la fiabilitat i la precisió dels resultats de les seves investigacions.
La connexió de diferents repositoris de dades ajuda els equips científics a accedir a conjunts de dades més grans de persones amb diferents antecedents i a obtenir informació cabdal sobre com es manifesten les malalties en diverses poblacions. També ajuda a evitar la duplicació d'esforços, accelerant els avenços en les estratègies de diagnòstic, tractament i prevenció.
No obstant això, cada país s'adhereix a rigorosos protocols de privacitat i seguretat que poden donar lloc a un mosaic de regulacions diferents que afecten la forma en què es comparteixen les dades de salut i genòmiques a través de les fronteres. Iniciatives com l'EGA Federat aborden aquests reptes mantenint les dades localment a cada país, cosa que permet als equips científics de tot el món descobrir, sol·licitar i, en alguns casos, analitzar dades en un entorn segur.
L'article, publicat a Nature Genetics, explica els reptes pràctics i de regulació als quals s'enfronta l'EGA Federat i la seva capacitat per fomentar la col·laboració global, alhora que s'adapta a diversos marcs legals i ètics. Els autors expliquen les diferents formes en què s’han unit nodes de dades a Finlàndia, Alemanya, Noruega, Espanya, Suècia, Polònia i Portugal des que es va crear l'EGA Federat el 2022.
Canadà és el primer país fora d'Europa que s'uneix a l'EGA Federat
L'article publicat a Nature Genetics afirma explícitament que el model de governança de l’EGA Federat no es limita als països europeus i que la xarxa té la intenció d'expandir-se a nivell mundial. Donar la benvinguda al Canadà a l'EGA Federat és un exemple real de l'expansió global de la iniciativa en acció.
La CGA es converteix en l'última infraestructura nacional a connectar els seus conjunts de dades amb una comunitat global. Els seus esforços augmentaran el volum i la diversitat de la informació genòmica disponible i aplanaran el camí per a estudis completament nous que d'una altra manera serien impossibles.
Les dades genòmiques i de salut dels projectes d'investigació biomèdica canadenques s'arxivaran i distribuiran de forma permanent a través de la CGA, un servei nacional que s'adhereix a rigorosos protocols de privacitat i seguretat. El Node CGA, que forma part de la Biblioteca del Genoma Pancanadenca, està supervisat pel Centre Michael Smith de Ciències del Genoma al BC Cancer i s'ha establert en col·laboració amb l'Aliança d'Investigació Digital del Canadà i el CGEn, el centre nacional del Canadà per a la seqüenciació i l'anàlisi del genoma. La iniciativa compta amb el suport dels Instituts Canadencs de Recerca en Salut (CIHR) i la Fundació Canadenca per a la Innovació (CFI).
"Aquesta associació històrica proporciona a la ciència canadenca una connexió ràpida i segura amb col·laboradors globals, fomentant la innovació científica i clínica al mateix temps que ratifica el nostre compromís amb la privacitat i el compliment de la legalitat vigent", diu el Dr. Steven Jones, líder del node CGA i codirector del Centre Michael Smith de Ciències del Genoma del Canadà a BC Cancer.
Model de governança de dades inspirat en l'EGA Central
L'EGA Federat es va construir seguint el model de governança de dades de l'European Genome-phenome Archive (EGA), que està allotjat al supercomputador MareNostrum ubicat al Barcelona Supercomputing Center-Centro Nacional de Supercomputación (BSC-CNS). La informació també s'emmagatzema a la seu de l’EMBL-EBI a Hinxton, Regne Unit.
L'EGA va exercir un paper fonamental durant la pandèmia de COVID-19, allotjant i gestionant dades per a diversos estudis a gran escala. Per exemple, projectes com la Iniciativa de Genètica de l'Hoste COVID-19 el van utilitzar per compartir de forma segura dades genòmiques i clíniques entre grups de recerca internacionals, cosa que va ajudar a identificar els factors genètics relacionats amb la gravetat i els resultats de la infecció. També ha ajudat a revelar noves variants causals en els càncers infantils i a descobrir variants genètiques que augmenten el risc de colitis ulcerosa.
A partir de febrer de 2025, l'EGA conté 16 PB de dades genòmiques i de salut humana, al voltant de tres quartes parts de la mida de totes les col·leccions digitals de la Biblioteca del Congrés d'EUA (21 PB). Com a referència, la mida del fitxer d'una foto feta per un telèfon mòbil mitjà avui dia sol oscil·lar entre 1,5 i 5 MB. Utilitzant l'estimació més alta (5 MB), les dades emmagatzemades a l'EGA central equivalen a més de 3.200 milions de fotos fetes amb un mòbil.
Les dades pertanyen a aproximadament 18.000 estudis d'investigació diferents realitzats a tot el món, essent el tipus d'estudi més comú el relacionat amb la investigació del càncer. Més de 25.000 científics/ques del món acadèmic i la indústria han demanat accés a les dades dins del repositori des de la seva creació l'any 2010.
Un element crucial per satisfer la creixent demanda global de dades d'EGA rau en els recursos de computació d'alt rendiment (HPC) del BSC. La infraestructura del centre processa i distribueix milers de sol·licituds de dades d'investigadors/es de tot el món, distribuint enormes volums de dades.
"En aprofitar els nostres recursos d'HPC, podem emmagatzemar en caché, xifrar i lliurar de manera eficient els conjunts de dades més utilitzats, fins i tot en els pics de demanda", explica Sergi Girona, director d'Operacions del BSC. "Només en el segon trimestre de 2024, vam distribuir un volum de dades aproximadament equivalent a 9.000 vegades el text dels 57 milions de pàgines de la Wikipedia en anglès, fet que demostra que una capacitat informàtica sòlida és la columna vertebral de l'intercanvi de dades a gran escala en benefici de la investigació biomèdica mundial".
El futur de l’EGA Federat
De cara al futur, l'EGA Federat planeja ampliar el seu abast més enllà de les dades genòmiques per incloure registres clínics, estudis d'imatge, perfils proteòmics i fins i tot informació ambiental, també coneguda com a dades "multiòmiques".
"El desenvolupament continu de Federated EGA exerceix un paper crucial en l'avenç de les infraestructures de dades europees, com GDI (Infraestructura Europea de Dades Genómiques) i EUCAIM (Federació Europea d'Imatges del Càncer). Aquests esforços són vitals per crear ecosistemes digitals sòlids que facilitin l'intercanvi transversal. l'assistència sanitària", ha apuntat el Dr. Salvador Capella-Gutiérrez, Coordinador de l'Institut Nacional de Bioinformàtica (INB) espanyol al BSC.
I ha afegit: "L'adaptació a la normativa de l'Espai Europeu de Dades Sanitàries (EHDS) representa una de les properes fites per a Federated EGA. Això inclou l'adopció d'Entorns de Processament Segur (SPE) per permetre als científics de tot el món analitzar les dades disponibles d'una manera que compleixi amb la legislació. Perquè això sigui possible, els centres de supercomputació com el BSC seran més essencials que mai."
Aquesta expansió serà clau per alliberar tot el potencial de la medicina personalitzada. En integrar molts tipus de dades diferents en un marc únic i segur, els/les investigadors/es poden disposar d’una visió més completa dels mecanismes de la malaltia i la salut del/la pacient. Això, també permetrà diagnòstics més precisos, tractaments específics i mesures preventives que tinguin en compte els antecedents genètics únics d'una persona i el context ambiental.
Alhora, l'EGA Federat continuarà augmentant la seva presència mundial associant-se amb nous països i institucions d'investigació. "Cada nou node agrega dades poblacionals úniques, la qual cosa ens ajuda a identificar els marcadors genètics de la malaltia amb major precisió. Això és fonamental per al desenvolupament de teràpies dirigides i mesures preventives personalitzades, accelerant l'arribada de la medicina personalitzada a escala global", conclou el Dr. Luis Serrano, professor d’investigació ICREA i director del Centre de Regulació Genòmica (CRG) a Barcelona.