Nou consorci internacional per crear models generatius de IA fiables i de confiança per a la ciència

10 Novembre 2023

El Trillion Parameter Consortium s'engega amb dotzenes de socis fundadors de tot el món, entre ells el BSC.

S'ha constituït un consorci mundial format per equips científics de laboratoris federals, instituts de recerca, universitats i empreses per abordar els reptes que planteja la creació de sistemes d'intel·ligència artificial (IA) a gran escala i avançar en una IA fiable per al descobriment científic.

El Trillion Parameter Consortium (TPC) reuneix equips de recerca dedicats a la creació de models d'IA generativa a gran escala per abordar els reptes principals que planteja l'avenç de la IA per a la ciència. Aquests reptes inclouen el desenvolupament d'arquitectures de models escalables i estratègies d'entrenament, l'organització i la conservació de dades científiques per a models d'entrenament, l'optimització de biblioteques d'IA per a plataformes de computació exaescala actuals i futures, i el desenvolupament de plataformes d'avaluació profunda per avaluar el progrés en l'aprenentatge de tasques científiques i la fiabilitat i la confiança.

Per això, TPC:

- Construirà una comunitat oberta d'investigadors interessats a crear models d'IA generativa a gran escala d'última generació amb l'objectiu general d'avançar en els problemes científics i enginyers compartint mètodes, enfocaments, eines, coneixements i mètodes de treball.

- Incubar, llançar i coordinar projectes de manera voluntària per evitar la duplicació d'esforços i maximitzar l'impacte dels projectes a la comunitat científica i d'IA en general.

- Crear una xarxa mundial de recursos i coneixements per facilitar la propera generació d'IA i reunir els investigadors interessats a desenvolupar i utilitzar la IA a gran escala per a la ciència i l'enginyeria.

 

El consorci ha format un conjunt dinàmic dàrees de treball fonamentals que aborden tres facetes de les complexitats de construir models d’IA a gran escala:

- Identificació i preparació de dades dentrenament dalta qualitat, amb equips organitzats al voltant de les complexitats úniques de diversos dominis científics i fonts de dades.

- Disseny i avaluació darquitectures de models, rendiment, formació i aplicacions posteriors.

- Desenvolupament de capacitats transversals i fundacionals, com ara innovacions en les estratègies d'avaluació de models pel que fa al biaix, la fiabilitat i l'alineació d'objectius, entre d'altres.

L'objectiu del TPC és proporcionar a la comunitat un lloc on múltiples iniciatives de creació de grans models puguin col·laborar per aprofitar els esforços globals, amb flexibilitat per adaptar-se als diversos objectius de les iniciatives individuals. TPC inclou equips que estan duent a terme iniciatives per aprofitar les plataformes emergents de computació a exaescala per entrenar LLM -o arquitectures de models alternatius- en investigació científica, incloent articles, codis científics i dades observacionals i experimentals per avançar en innovació i descobriments.

Els models de bilions de paràmetres representen la frontera de la IA a gran escala i només els sistemes comercials més grans d'IA s'acosten actualment a aquesta escala.

Per entrenar LLM amb aquesta quantitat de paràmetres calen recursos informàtics de classe exascale, com els que estan desplegant diversos laboratoris nacionals del Departament d'Energia dels Estats Units (DOE) i múltiples socis fundadors de TPC al Japó, Europa i altres llocs. Fins i tot amb aquests recursos, l'entrenament d'un model d'última generació amb un bilió de paràmetres requerirà mesos de temps dedicat, cosa impossible d'aconseguir en tots els sistemes excepte els més grans. Per tant, en aquests projectes participaran grans equips multidisciplinaris i interinstitucionals. El TPC es concep com un vehicle de col·laboració i cooperació entre aquests equips i dins d'ells.

"Al nostre laboratori i en un nombre cada vegada més gran d'institucions associades de tot el món, els equips estan començant a desenvolupar models d'IA d'avantguarda per a ús científic i estan preparant enormes col·leccions de dades científiques sense explotar prèviament per a l'entrenament", va dir Rick Stevens, director associat del laboratori d'informàtica, medi ambient i ciències de la vida al Laboratori Nacional Argonne del DOE i professor d'informàtica a la Universitat de Chicago. "Hem creat TPC en col·laboració per accelerar aquestes iniciatives i crear ràpidament els coneixements i les eines necessaris per crear models d'IA amb capacitat no només per respondre preguntes específiques d'un domini, sinó també per sintetitzar coneixements de totes les disciplines científiques."

Els socis fundadors de TPC pertanyen a les següents organitzacions (enumerades per ordre alfabètic organitzatiu, amb un punt de contacte):

AI Singapore: Leslie Teo

Allen Institute For AI: Noah Smith

AMD: Michael Schulte

Argonne National Laboratory: Ian Foster

Barcelona Supercomputing Center: Mateo Valero

Brookhaven National Laboratory: Shantenu Jha

CalTech: Anima Anandkumar

CEA: Christoph Calvin

Cerebras Systems: Andy Hock

CINECA: Laura Morselli

CSC - IT Center for Science: Per Öster

CSIRO: Aaron Quigley

ETH Zürich: Torsten Hoefler

Fermilab National Accelerator Laboratory: Jim Amundson

Flinders University: Rob Edwards

Fujitsu: Koichi Shirahata HPE: Nic Dube

Intel: Koichi Yamada

Jeülich Supercomputing Center: Jenia Jitsev

Kotoba Technologies, Inc.: Jungo Kasai

LAION: Jenia Jitsev

Lawrence Berkeley National Laboratory: Stefan Wild

Lawrence Livermore National Laboratory: Brian Van Essen

Leibniz Supercomputing Centre: Dieter Kranzlmüller

Los Alamos National Laboratory: Jason Pruet

Microsoft: Shuaiwen Leon Song

National Center for Supercomputing Applications: Bill Gropp

National Renewable Energy Laboratory: Juliane Mueller

National Supercomputing Centre, Singapore: Tin Wee Tan

NCI Australia: Jingbo Wang

New Zealand eScience Infrastructure: Nick Jones

Northwestern University: Pete Beckman

NVIDIA: Giri Chukkapalli

Oak Ridge National Laboratory: Prasanna Balaprakash

Pacific Northwest National Laboratory: Neeraj Kumar

Pawsey Institute: Mark Stickells

Princeton Plasma Physics Laboratory: William Tang

RIKEN Center for Biosystems Dynamics Research: Makoto Taiji

Rutgers University: Shantenu Jha

SambaNova: Marshall Choy

Sandia National Laboratories: John Feddema Seoul

National University, South Korea: Jiook Cha

SLAC National Accelerator Laboratory: Daniel Ratner

Stanford University: Sanmi Koyejo

STFC Rutherford Appleton Laboratory, UKRI: Jeyan Thiyagalingam

Texas Advanced Computing Center: Dan Stanzione

Thomas Jefferson National Accelerator Facility: David Dean

Together AI: Ce Zhang

Tokyo Institute of Technology: Rio Yokota

Université de Montréal: Irina Rish

University of Chicago: Rick Stevens

University of Delaware: Ilya Safro

University of Illinois Chicago: Michael Papka

University of Illinois Urbana-Champaign: Lav Varshney

University of New South Wales: Tong Xie

University of Tokyo: Kengo Nakajima

University of Utah: Manish Parashar