13.01.2026 - 21:40
|
Actualització: 13.01.2026 - 23:07
La nostra veu ens defineix. No és tan sols un instrument per a comunicar paraules: transmet la nostra personalitat, la nostra essència. Una broma dita amb la nostra pròpia entonació té un significat diferent del d’una veu sintètica. Un “t’estimo” xiuxiuejat amb el nostre timbre únic arriba d’una manera que cap veu robòtica no pot replicar.
Per als malalts d’esclerosi lateral amiotròfica (ELA), perdre la veu significa perdre una part fonamental de la seva identitat. Aquesta malaltia neurodegenerativa va despullant progressivament els qui la pateixen de les seves capacitats motores, inclosa la parla. Els sistemes de comunicació augmentativa els permeten de continuar expressant-se, però amb veus genèriques que no tenen res a veure amb qui eren.
En el grup de recerca VertexLit, de l’Institut Valencià de Recerca en Intel·ligència Artificial (VRAIN) de la Universitat Politècnica de València, ens vam proposar de canviar això. El nostre projecte ha aconseguit de clonar la veu de Fran Vivó, un pacient d’ELA, i retornar-li una cosa que semblava perduda per sempre.
Més enllà d’allò que és funcional
Aquest treball no pretenia pas de resoldre un problema estrictament tècnic. Els pacients d’ELA ja disposen de sistemes que els permeten de comunicar-se mitjançant text o veus sintètiques predefinides. Nosaltres cercàvem una cosa diferent: retornar dignitat.
Quan en Fran torna a “parlar” amb la seva pròpia veu, amb la seva prosòdia, el seu to, les seves particularitats, alguna cosa canvia profundament en ell i en els seus familiars. No és una millora pràctica en sentit estricte, però representa una aportació enorme a la qualitat de vida emocional dels afectats. És tornar a escoltar la persona que coneixien, recordar-la en una cosa tan pròpia com la seva manera de parlar.
L’envit real no és la tecnologia en si mateixa, sinó ajustar-la a les fonts disponibles. Perquè quan algú perd la veu, els enregistraments que en conserva solen ser pocs i de qualitat variable: notes d’àudio al mòbil, vídeos familiars, potser algun missatge desat per casualitat.
Projectar emoció amb les paraules
El projecte ha implicat d’identificar els millors models i eines disponibles, a més de fer entrenaments específics que permetin no sols de mantenir les característiques originals de la veu, sinó injectar elements d’emoció i expressivitat.
Els sistemes actuals de clonació de veu són capaços de replicar amb notable fidelitat el to i el timbre d’una persona. No obstant això, quan parlem, no tan sols emetem un senyal acústic característic, sinó que també tenim un ritme particular, fem servir crosses, fem pauses en uns certs moments i modulem les frases de maneres que ens identifiquen tant com la nostra pròpia veu. És aquesta dimensió expressiva –que podríem anomenar la nostra “petjada prosòdica”–, allò que hem volgut capturar, precisament.
Per aconseguir-ho, fem servir models d’intel·ligència artificial que analitzen en profunditat els enregistraments disponibles del pacient. Aquests models extreuen patrons d’entonació, variacions dialectals, cadències i més trets que defineixen la seva manera única d’expressar-se. El resultat és un perfil detallat que va molt més enllà de les característiques purament acústiques de la veu.
Amb aquest perfil, transformem qualsevol text que es vulgui generar abans de passar-ho al sistema de clonació. En lloc de sintetitzar directament les paraules escrites, les adaptem perquè reflecteixin com les diria realment aquesta persona: amb les seves pauses, els seus èmfasis i els seus girs característics. D’aquesta manera, la veu generada no sols sona com el pacient, sinó que parla com ell.
El nostre objectiu és crear una plataforma accessible que permeti, sense tecnicismes, d’entrenar el sistema amb enregistraments disponibles i generar noves locucions. Volem que tant el malalt com els seus familiars puguin produir missatges en un entorn de màxima privacitat, i convertir aquesta tecnologia en un complement humà dels sistemes de comunicació actuals.
Un pont entre el món i les persones
Vivim un moment crucial per a la intel·ligència artificial. Per desgràcia, rep més atenció pels seus potencials abusos que no pas pels beneficis que ja aporta en camps com la salut o la qualitat de vida. Es parla molt de regular-la, però allò que cal regular són les seves aplicacions, no pas la recerca ni l’exploració de les seves possibilitats.
Per als qui investiguem en aquest terreny, el sentit de la intel·ligència artificial rau a fer-la servir com a pont, com a intermediari intel·ligent entre la complexitat del món i les persones, especialment aquelles amb necessitats especials.
Aquest projecte es troba ara en procés de construcció. Treballem perquè estigui disponible per mitjà d’associacions i organismes, bo i permetent que més afectats facin el procés amb autonomia. L’objectiu és preveure més possibilitats, no tan sols per a malalts d’ELA, sinó per a totes les persones que veuen afectada la seva comunicació. En definitiva, volem ser capaços d’utilitzar la intel·ligència artificial com un element que ens assisteix, ens complementa i s’adapta a les característiques úniques de cada individu.
Jordi Llinares Pellicer és doctor en informàtica i professor a la Universitat Politècnica de València. Aquest article va ser publicat originalment a The Conversation.