DeepR3.cat: Reducir, Reutilizar, y Reciclar modelos lingüísticos grandes para desarrollar Tecnologías del Lenguaje Responsables y Verdes

Status: Active Start:
01/12/2022
End:
30/11/2024

Primary tabs

Description

DeepR3.cat investigará nuevos métodos para extender, reutilizar y adaptar de forma computacionalmente eficiente los modelos de lenguaje preentrenados existentes con el fin de explotarlos en nuevos dominios, géneros y lenguas, así como aplicarlos a diferentes casos de uso, como el dominio biomédico, la traducción automática o la generación de textos. Exploraremos las técnicas de adaptación de modelos, haciendo hincapié en la eficiencia computacional, por ejemplo, manteniendo el tamaño de los modelos lo más compactoposible, con vistas a contribuir a la mitigación de la huella de carbono, así como a poder utilizar el modelo en entornos computacionalmente ligeros. Para ello, se explorarán estrategias innovadoras en el aprendizaje por transferencia que vayan más allá de las técnicas estándar de adaptación de modelos. Por ejemplo, la adaptación parcial del modelo, en el que sólo se modifica un subconjunto de parámetros, es más eficiente que la adaptación completa del modelo. Esto puede abordarse de diferentes maneras: por ejemplo, los adaptadores son una estrategia cada vez más común que consiste en introducir nuevas capas, intercaladas con las originales. Aún más novedoso y rentable es el p-tuning, que consiste en introducir tokens "artificiales" con sus correspondientes embeddings y utilizarlos comoprefijos en la nueva tarea. Otras técnicas de adaptación que se explorarán son el aprendizaje con cero y pocos ejemplos, el prompting yel "reciclaje de modelos", que consiste en reinicializar únicamente las capas léxicas con un nuevo vocabulario y congelar el resto de los pesos. Este enfoque tiene la ventaja de poder utilizar un vocabulario totalmente nuevo reutilizando los parámetros de un modelo existente. Los modelos reciclados que se obtengan serán la base de una nueva generación de modelos lingüísticos eficientes y computacionalmente eficientes para el español, el catalán, el euskera y el gallego (además del inglés). La investigación tendrá también la orientación práctica de cubrir las lagunas actuales en los modelos adaptados a los dominios de estas lenguas, como el sanitario y eljurídico, y a diversos géneros como el de las redes sociales. Los modelos resultantes serán evaluados en benchmarkings existentes y denuevo desarrollo.

Funding