La IA que dóna veu a la llengua de signes: els sords signants podran fer ràdio

  • La Universitat Pompeu Fabra (UPF) i la consultora tecnològica Sorensen han creat una eina perquè una alumna del grau de periodisme pugui cursar l'assignatura de ràdio en igualtat de condicions

VilaWeb
04.04.2026 - 21:40
Actualització: 04.04.2026 - 21:42

És possible de mantenir una conversa de veu amb un sord signant? Ara, gràcies a la intel·ligència artificial, sí. Un projecte pioner de la Universitat Pompeu Fabra (UPF) i la consultora tecnològica Sorensen ha servit per a idear una eina que permet als sords signants de fer ràdio, perquè es pot transformar la llengua de signes catalana (LSC) en una veu sintètica personalitzada per a l’usuari. Es diu SignarIA

Tot neix d’una petició concreta: la de la Berta, la primera estudiant sorda signant del grau de periodisme de la UPF. Està acostumada a fer totes les assignatures amb un intèrpret, però quan va veure que hauria de fer dues assignatures de ràdio –una a primer curs i una altra a tercer–, va demanar als professors si li convalidarien les hores, o quina metodologia usarien per a avaluar-la. Va reiterar que, si li oferien una solució, ella estava disposada a fer l’assignatura. Evidentment, sempre s’havia sentit exclosa del sector de la ràdio, atès que és un àmbit eminentment sonor, però, al cap i a la fi, forma part dels seus estudis de periodisme. Els professors del grau, animats per l’alumna, es van proposar un objectiu: fer possible que la Berta pogués ser avaluada de l’assignatura de ràdio en igualtat de condicions que els seus companys. 

Però no era un desafiament gens fàcil. Requeria temps i, sobretot, finançament. Malauradament, l’assignatura de ràdio de primer la va haver de fer amb un intèrpret, perquè no es va poder trobar cap alternativa a temps. La UPF, doncs, va posar fil a l’agulla i es va marcar l’objectiu de donar-li l’oportunitat de fer l’assignatura de tercer de ràdio amb totes les garanties. L’objectiu era desenvolupar un prototip tecnològic capaç de transformar la llengua de signes catalana en la seva veu, una veu que fos única i intransferible. “Vam parlar amb Josep Maria Ganyet, amb la gent de Xavier Vinaixa, i amb gent de Sorensen, perquè calia una associació público-privada per fer-ho possible”, explica Roger Cassany, cap d’estudis del grau de periodisme i coordinador del projecte de la UPF, juntament amb Marcel Mauri. Finalment, la investigació s’ha pogut dur a terme gràcies als fons de la Unió Europea dedicats a intel·ligència artificial i món educatiu. L’equip de la UPF i Sorensen van presentar el projecte SignarIA al juny, i no va ser fins al setembre que els el van acceptar. Entre l’octubre i el novembre els va arribar el finançament, i d’ençà de llavors han treballat de valent per poder-ho tenir enllestit abans que la Berta cursi tercer i hagi de fer l’assignatura de ràdio. 

Com funciona SignarIA?

La idea és que la Berta no hagi de renunciar a la seva llengua, que és la llengua de signes catalana (LSC), i pugui fer ràdio en directe”, explica Cassany. Bàsicament, hi havia dos objectius: en primer lloc, passar de LSC a text i, després, transformar aquest text en veu. Però no podia ser una veu qualsevol: calia que la veu tingués personalitat i que respongués a les característiques de la Berta. Per això s’ha creat una veu a partir de la fusió del seu timbre de veu –encara que ella no pugui articular paraules, sí que emet sons– i de la prosòdia de la seva cosina –és a dir, l’entonació, el ritme, l’accent i les pauses que fem quan parlem. “Parlem com parlem per la gent del nostre entorn, sobretot. I en el cas de la Berta, no podíem utilitzar la veu dels seus pares ni de la seva germana, perquè també són persones sordes. La persona oient més pròxima a ella era la seva cosina, que també és de Vilafranca del Penedès i que a més té la seva edat, de manera que va anar perfecte”, diu Cassany. 

Ara, com es transformen els signes que faci la Berta en el text que el sintetitzador haurà d’interpretar per donar-hi veu? Aquesta era la part més difícil, perquè no hi ha cap banc de dades de la LSC prou gran per a fer un reconeixement d’imatge directa, allò que es coneix com a end-to-end. De fet, segons que explica Cassany, convertir els signes d’un llenguatge de signes a text de manera gairebé automàtica tan sols es pot fer en la llengua de signes americana, perquè és l’única que té un banc de dades prou gran. “La llengua de signes britànica o espanyola també tenen una base molt gran, però la catalana, tot i tenir una base potent perquè el IEC hi ha treballat molt, encara no és prou gran. La LSC és una llengua doblement minoritzada, perquè, tot i que és molt útil, té molt pocs parlants”, explica Cassany.  

Així doncs, la UPF i Sorensen han treballat amb intel·ligència artificial per ampliar aquest banc de dades i fer possible la transformació d’imatge a text. Per exemple, han creat nous signes sintètics que són les conjugacions dels verbs: “Tenint l’infinitiu fet amb el signe, podem conjugar tot el verb sintèticament”, diu Cassany. A banda, han entrenat un model de llenguatge gran (LLM), que és un sistema avançat de IA que interpreta conjunts de dades per resumir, generar i predir un llenguatge semblant al que utilitzem els humans. Bàsicament, serveix per a farcir o completar frases segons el context. En aquest cas concret, cada vegada que la Berta signi i expressi un concepte, l’eina ho interpretarà i donarà tres opcions diferents de frase, cada una amb un matís diferent del llenguatge, que varia lleugerament segons el context. Llavors la Berta, amb un pedal, podrà elegir l’opció de les tres que s’adeqüi millor al que ella ha expressat amb la llengua de signes. La primera opció oferta per la LLM és molt literal, la segona opció és per a afegir-hi context –per exemple, si parla dels trens de Rodalia, explicaria una mica més d’informació–, i la tercera opció és més creativa. 

“Posem per cas que la Berta es troba en una tertúlia a la ràdio. Al monitor hi anirà llegint a l’acte allò que diuen els altres tertulians. Quan ella vulgui intervenir, signarà, i l’aparell li donarà tres opcions de frases. Amb un pedal, elegirà la que millor s’adapti a allò que vol transmetre. Llavors s’emetrà amb la seva veu sintètica allò que haurà dit mitjançant la LSC”, resumeix Cassany. Si la connexió a internet és bona, tot aquest procés triga tan sols dos segons. 

Imatges cedides per la Universitat Pompeu Fabra.

Quan es posarà en funcionament? 

Ara per ara, la UPF i Sorensen han lliurat el prototip de SignarIA, però falta que la Berta el vagi entrenant perquè sigui plenament funcional. A poc a poc, el sintetitzador s’anirà familiaritzant amb el context social, cultural o geogràfic de la Berta, i donarà respostes més acurades. Quan comenci el curs acadèmic ja el podrà dur a classe, i quan hagi de fer l’assignatura de ràdio el posarà en pràctica de manera definitiva. “Això és un exemple de sobirania tecnològica, és a dir, tecnologia feta a partir d’una necessitat social concreta. No és una tecnologia feta a Silicon Valley a la qual ens hem d’adaptar, sinó que és fet aquí, i que s’adapta a nosaltres”, remarca Cassany. 

Tot i que és una eina que neix del cas concret de la Berta, l’objectiu a llarg termini és que pugui donar resposta a les necessitats de molta altra gent, i que cada usuari signant es pugui construir la seva veu: “La idea és que se t’obri un formulari a l’ordinador i et digui: ‘Vols fer-te la teva veu? Busca un donant de veu que sigui de la teva família i que llegeixi aquestes frases. Grava el teu timbre.’ I que et creï la teva veu. I a partir d’aquí, que li expliquis el teu context, li donis informació sobre tu, li facis llegir articles que hagis publicat, o textos que hagis escrit. I que cadascú es pugui fer el seu model, perquè aquesta és una eina hiperpersonalitzada.” A més, com que el producte és creat en una universitat pública, quan el prototip estigui entrenat i sigui plenament funcional, serà obert per a tothom

Ara com ara, aquest prototip de SignarIA permet de sintetitzar veu a partir de la LSC, però encara no es pot fer el camí contrari: a partir d’una veu, passar-ho a la llengua de signes. Tanmateix, seria un objectiu a assolir a llarg termini. “Si això fos possible, seria ideal, perquè significaria que no cal renunciar mai a la llengua pròpia, en aquest cas, a la llengua de signes catalana”, diu Cassany. 

Cassany recorda que l’objectiu primordial és que els sords signants puguin anar a la ràdio i expressar el seu punt de vista amb la mateixa facilitat que la resta de periodistes o tertulians que hi participen: “Que la gent sorda pugui anar a la ràdio perquè també tenen coses a dir; no perquè són sords i hagin de parlar de la seva experiència, sinó perquè tenen opinions i idees sobre qualsevol tema de debat, de la mateixa manera que en tenim la resta de persones.” I afegeix: “Remarquem que les persones signants ja tenen una veu per a anar per la vida, que és la llengua de signes.” 

En tot cas, SignarIA també podria servir per a àmbits més enllà del món periodístic: per exemple, en l’àmbit judicial, perquè el signant sabria exactament què diu en un judici, i no caldria un intèrpret. O en l’àmbit mèdic i hospitalari, per a determinats moments en què la intimitat sigui molt important i es pugui prescindir de la figura de l’intèrpret. 

Imatges cedides per la Universitat Pompeu Fabra.

Recomanem

Fer-me'n subscriptor