El projecte, coordinat pel BSC, proporciona models de llenguatge oberts i transparents per fomentar l'ús del castellà i les llengües cooficials en el desenvolupament i desplegament de la IA
En aquest context neix ALIA-40B, el model fundacional multilingüe públic més avançat d'Europa, entrenat al supercomputador MareNostrum 5
La iniciativa compta amb finançament 100% públic per donar servei d'interès públic i democratitzar l'accés a la IA de la ciutadania, l'administració pública, les universitats i les empreses
El president del Govern espanyol, Pedro Sánchez, ha anunciat el llançament del projecte ALIA, la primera infraestructura pública europea, oberta i multilingüe que, gràcies a les capacitats úniques de supercomputació del Barcelona Supercomputing Center-Centro Nacional de Supercomputación (BSC-CNS), reforça la sobirania tecnològica d'Espanya i Europa en el desenvolupament d'una intel·ligència artificial transparent, responsable i al servei de les persones.
ALIA és una iniciativa pionera a la Unió Europea per proporcionar una infraestructura pública de recursos d'IA i serveis tecnològics innovadors, com models de llenguatge oberts per fomentar l'impuls del castellà i llengües cooficials -català i valencià, euskera i gallec- en el desenvolupament i desplegament de la IA al món. El projecte està coordinat pel BSC, amb l'impuls i el lideratge de la Secretaria d'Estat de Digitalització i Intel·ligència Artificial (SEDIA) i el suport de la Generalitat de Catalunya. També forma part de l'Estratègia d'Intel·ligència Artificial 2024 del Govern d'Espanya.
Supercomputació pública per fer avançar la IA
Es tracta d'un projecte obert que es distingeix per la transparència i l'obertura per impulsar la innovació i l'adopció de les tecnologies, garantint-ne la fiabilitat tecnològica i la inclusió social i econòmica. La família de models ALIA compta amb la verificació de l'Agència Espanyola de Supervisió de la Intel·ligència Artificial (AESIA) i s'alinea amb els estàndards de transparència que estableix el Reglament d'IA.
Aquesta iniciativa pionera compta amb finançament 100% públic per donar servei d’interès públic i democratitzar l’accés a la IA de la ciutadania, l’administració pública, les universitats i les empreses.
“El projecte ALIA representa un esforç extraordinari per dotar-nos de dades, models de llengua i recursos propis dins de l'entorn competitiu de la intel·ligència artificial. Al seu nucli, ALIA treballa amb textos en més de 35 llengües europees, assegurant una representació del 20% per a les llengües de l'Estat, fet que el converteix en el sistema d'IA que millor reflecteix la nostra realitat lingüística i cultural”, ha afirmat Mateo Valero, director del BSC.
Segons la consellera de Recerca i Universitats de la Generalitat de Catalunya, Núria Montserrat, “amb ALIA, fem un pas decisiu en la sobirania tecnològica d'Europa. Aquest model no només reforça el lideratge de Catalunya i d'Espanya en intel·ligència artificial, sinó que també ens dota de recursos multilingües i especialitzats que seran fonamentals per al desenvolupament de la IA en sectors clau per a la societat i l'economia del futur”.
Un gran model de llenguatge entrenat a MareNostrum 5
L'entrenament i el desplegament de la IA generativa requereix una enorme capacitat de processament computacional. En el cas de l'entrenament de la família de models ALIA, el processament de milers de milions de paraules necessita l'ús de milers d'hores de MareNostrum 5, un dels superordinadors més potents del món, ubicat i gestionat pel BSC.
En aquest context, el president del Govern d'Espanya també ha anunciat la publicació d'ALIA-40B, el model fundacional multilingüe públic més avançat d'Europa amb 40.000 milions de paràmetres, que ha estat entrenat durant més de 8 mesos al MareNostrum 5 amb 6 ,9 bilions de tokens (paraules o fragments de paraules usades en aquests sistemes) en 35 llengües europees. La seva versió final estarà entrenada amb fins a 9,2 bilions de tokens.
"El model ALIA-40B, amb 40.000 milions de paràmetres, suposa un salt qualitatiu respecte al seu predecessor i és el primer model sobirà i públic d’aquesta magnitud desenvolupat a Europa, capaç de generar recursos especialitzats en àrees d’interès social i econòmic", ha afegit Valero.
El corpus d'entrenament del model ocupa 33 terabytes de memòria, cosa que equivaldria a 17 milions de llibres, o 4,5 milions de fotos en alta resolució, o 6,6 milions de cançons. Aquestes xifres suposen un important salt qualitatiu respecte del seu model predecessor 7B, amb 7.000 milions de paràmetres, que va ser tota una fita com a primer model desenvolupat des de zero a Espanya.
AINA i ILENIA, els precedents
El projecte ALIA es va iniciar amb el Pla de Tecnologies del Llenguatge el 2019. Projectes com AINA, impulsat per la Generalitat de Catalunya, i ILENIA impulsat per la SEDIA, han establert les bases per a la construcció d'aquesta infraestructura pública d'IA. A l'Estratègia Nacional d'Intel·ligència Artificial 2024, la posada en marxa del projecte ALIA és un dels pilars clau per crear aquesta infraestructura pública d'IA en castellà i llengües cooficials. A més, ALIA està alineada amb el programa de la Dècada Digital de la Unió Europea, que guia la transformació digital d’Europa i la seva sobirania tecnològica.