La tecnologia desenvolupada conjuntament pel BSC i la UPC utilitza intel·ligència artificial per convertir frases en llengua de signes gravades en vídeo a llengua parlada en format text.
El sistema utilitza un model d’aprenentatge automàtic que és la base d’altres eines d’intel·ligència artificial com el ChatGPT
“La publicació d’aquesta eina representa un pas significatiu cap a la creació de tecnologia més inclusiva i accessible”, afirma la investigadora Laia Tarrés
Amb la presentació d’aquest treball, el BSC se suma a la celebració aquest 18 de maig del Global Accessibility Awareness Day
Investigadors del Barcelona Supercomputing Center - Centro Nacional de Supercomputación (BSC-CNS) i la Universitat Politècnica de Catalunya (UPC) han desenvolupat una eina per a la recerca en la traducció automàtica de llengua de signes que empra la intel·ligència artificial per trencar algunes de les barreres de comunicació a les quals habitualment s’enfronta la comunitat de persones amb sordesa.
Malgrat els avenços en tecnologies de reconeixement de veu com Alexa i Siri, les llengües de signes encara no estan incloses en aquestes aplicacions cada cop més presents a la vida quotidiana de moltes llars. Aquest greuge imposa una barrera a les persones que depenen de la llengua de signes com a mode de comunicació preferit per interactuar amb la tecnologia i accedir als serveis digitals dissenyats només per a llengües parlades.
El desenvolupament d'aquest nou programari de codi obert és un pas important per fer que la comunicació sigui accessible i lliure de barreres per a totes les persones. Per aconseguir-ho, els investigadors del BSC i la UPC han combinat tècniques de visió per computador, processament de llenguatge natural i aprenentatge automàtic per avançar en la recerca de la traducció automàtica de llengua de signes, un problema complex degut en part a la variabilitat i gran quantitat de llengües de signes que existeixen al món.
El sistema, encara en fase experimental, utilitza un model d’aprenentatge automàtic denominat Transformers, que és la base d’altres eines d’intel·ligència artificial com el ChatGPT, per convertir frases senceres en llengua de signes en format vídeo a llengua parlada en format text. Actualment està centrat en la llengua de signes americana (American Sign Language, ASL) però podria adaptar-se a qualsevol altra llengua sempre que estiguin disponibles totes les dades necessàries, és a dir que existeixi un corpus amb dades paral·leles on cada frase de llengua de signes (en format vídeo) tingui la corresponent traducció en llengua parlada (en format text).
“La nova eina desenvolupada és una extensió d’una publicació anterior també del BSC i la UPC denominada How2Sign, on es van publicar les dades necessàries per entrenar els models (més de 80 hores de vídeos on intèrprets de la llengua de signes americana tradueixen videotutorials com receptes de cuina o trucs de bricolatge). Amb aquestes dades ja disponibles, l'equip ha desenvolupat un nou programari de codi obert capaç d’aprendre el mapat entre vídeo i text”, afirma Laia Tarrés, investigadora del BSC i la UPC, que ha presentat la publicació del nou model coincidint amb la celebració del Global Accessibility Awareness Day.
Pas endavant per obtener una aplicación real
Els investigadors asseguren que aquest nou treball és un pas en la direcció correcta però igualment destaquen que encara hi ha molt marge de millora. Estem davant dels primers resultats que, de moment, no permeten crear una aplicació concreta que doni servei als usuaris. L’objectiu és seguir treballant per millorar l’eina i obtenir una aplicació real que impulsi la creació de tecnologies accessibles per a persones sordes.
El projecte ja s’ha presentat a l’espai Fundació Telefónica de Madrid en el marc de l’exposició ‘Código y algoritmos. Sentido en un mundo calculado’ que, amb una presència destacada del BSC, reuneix diferents projectes relacionats amb la intel·ligència artificial. També s’exposarà pròximament al Centre de Cultura Contemporània de Barcelona (CCCB) dins d’una gran exposició també sobre intel·ligència artificial que s’inaugurarà a l’octubre vinent.
“Aquesta eina oberta de traducció automàtica de llengua de signes és una contribució valuosa per a la comunitat científica centrada en accessibilitat, i la seva publicació representa un pas significatiu cap a la creació de tecnologia més inclusiva i accessible per a tothom”, conclou Tarrés.