Se trata de un sistema de inteligencia artificial masivo y experto en comprender y escribir en lengua española, creado a partir del patrimonio documental digital de la Biblioteca Nacional de España.
El proyecto MarIA, el sistema de modelos de lengua creado en el Barcelona Supercomputing Center – Centro Nacional de Supercomputación (BSC-CNS) a partir de los archivos web de la Biblioteca Nacional de España (BNE), y enmarcado y financiando con el Plan de Tecnologías del Lenguaje de la Secretaría de Estado de Digitalización e Inteligencia Artificial (SEDIA), ha sido galardonado con el Premio a la innovación en la primera edición de los Premios Archiletras de la Lengua.
Los Premios Archiletras, de carácter anual y convocados por la editorial Prensa y Servicios de la Lengua, reconocen los méritos en la promoción, apoyo, investigación y desarrollo de la lengua española o de algunas de las otras lenguas en contacto con el español en cualquiera de sus ámbitos territoriales.
La entrega del galardón se realizó este jueves en la Casa América de Madrid, en un acto en el que el BSC estuvo representado por Marta Villegas, responsable del proyecto y líder de la Unidad de Minería de Textos del BSC, que recibió el premio de manos de Carme Artigas, Secretaria de Estado de Digitalización e Inteligencia Artificial.
“Recibir el premio Archiletras nos hace especialmente felices. Es un honor y un reconocimiento al equipo de profesionales entusiastas del BSC que, en colaboración con la BNE y la SEDIA, ha trabajado para que el español disponga de recursos lingüísticos suficientes y de calidad”, aseguró Marta Villegas.
MarIA se impuso en la votación final del jurado a los otros dos finalistas, la aplicación móvil Dialectos del Español, diseñada para detectar y predecir rasgos generales y característicos de todos los dialectos del mundo hispanohablante, y Euskal Herriko Ahotsak (Voces del País Vasco), proyecto que recopila y difunde el patrimonio cultural oral y dialectal vasco.
MarIA sitúa a la lengua española entre los idiomas que disponen de modelos masivos de acceso abierto
El proyecto MarIA es un sistema de inteligencia artificial masivo y experto en comprender y escribir en lengua española. Por su volumen y capacidades, ha situado a la lengua española entre el grupo de los idiomas que disponen de modelos masivos de acceso abierto, después del inglés y el mandarín.
Un modelo de lenguaje es un sistema de inteligencia artificial formado por una red neuronal profunda entrenada para adquirir una comprensión de la lengua, de su léxico y de sus mecanismos para expresar el significado y escribir como un humano.
Estos modelos estadísticos complejos, que relacionan palabras en textos de modo sistemático y masivo, son capaces de “entender” no sólo conceptos abstractos, sino también el contexto de los mismos. Con estos modelos, los desarrolladores de diferentes aplicaciones pueden crear herramientas para múltiples usos, como clasificar documentos o crear correctores o herramientas de traducción.
MarIA se ha construido a partir del patrimonio documental digital de la BNE, que rastrea y archiva las webs elaboradas en español y se ha entrenado con el superordenador MareNostrum 4 del BSC. Se publica en abierto para que los desarrolladores de aplicaciones, compañías, grupos de investigación y la sociedad en general lo puedan utilizar en infinidad de usos.
Los últimos avances de MarIA constituyen un hito en la consecución de objetivos de la Estrategia Nacional de Inteligencia Artificial y del Plan de Recuperación, Transformación y Resiliencia, con los que España pretende liderar a nivel mundial el desarrollo de herramientas, tecnologías y aplicaciones para la proyección y uso de la lengua española en los ámbitos de aplicación de la IA.
MarIA está igualmente vinculado al Proyecto estratégico para la recuperación y transformación económica (PERTE) Nueva economía de la lengua, planteado como una oportunidad para aprovechar el potencial del español y de las lenguas cooficiales como factor de crecimiento económico y competitividad internacional en áreas como la inteligencia artificial, la traducción, el aprendizaje, la divulgación cultural, la producción audiovisual, la investigación y la ciencia.