Investigadors de la Universitat de Washington (EUA) van presentar fa uns dies una sèrie de vídeos en què el president Barack Obama pronunciava diversos discursos. Els vídeos corresponien als discursos setmanals de l’ex-president dels EUA. Però el que pronunciava en aquests discursos no era el que havia dit originalment. El so i la gesticulació del president havien estat manipulats d’una manera completament realista. Si l’espectador no és avisat, difícilment s’adonarà de la manipulació. Tècnicament, expliquen els investigadors en un article científic, s’ha aconseguit de sincronitzar els llavis amb un so diferent de l’original mitjançant intel·ligència artificial. Vists els resultats, a partir d’ara podrem creure’ns allò que es diu als vídeos?

Aplicació de les darreres tecnologies en intel·ligència artificial
El que han fet els científics informàtics és aplicar els darrers avenços en intel·ligència artificial (AI), les xarxes neuronals. Aquestes xarxes informàtiques emulen l’estructura del cervell humà, i actualment s’apliquen als problemes més complexos, com ara la conducció autònoma. A la Universitat de Washington les han aplicades sobre imatges de vídeos. Si van triar les imatges del president Obama va ser per la facilitat de trobar-ne en gran quantitat i de gran qualitat: cada setmana pronunciava vídeos que eren enregistrats en vídeo. Això és important, perquè les xarxes neuronals apliquen tècniques d’aprenentatge de màquina (Machine Learning), que necessiten grans quantitats de dades. Les xarxes neuronals van aprenent amb els exemples i, igual que el cervell humà, són extremadament bones detectant patrons. Un cop detectats aquests patrons, els poden modificar i generar-ne de nous, de manera que arriben a emular artificialment un nou resultat que segueix les mateixes lleis que el patró observat prèviament.

Els autors han analitzat una gran quantitat d’hores d’àudio i vídeo i han fet que les xarxes neuronals observessin la sincronització entre la veu i el moviment dels llavis. Quan les xarxes neuronals han après la correspondència entre el so i els moviments dels llavis, s’ha introduït un nou àudio de Barack Obama en el mateix vídeo. A partir del nou àudio, la xarxa neuronal ja ha pogut modificar els llavis del vídeo per a adaptar-los al nou discurs. El resultat és completament creïble, i completament fals, com mostra l’exemple proporcionat per la Universitat de Washington.

Les limitacions de la tecnologia
Un vídeo del president més poderós del planeta, amb l’arsenal atòmic més gran, dient qualsevol cosa que es vulgui, és realment preocupant. Els investigadors han volgut calmar el públic explicant l’aplicació pràctica més immediata i les limitacions que presenta la tecnologia, a més del sistema per a detectar-ne la manipulació.

La primera limitació és que només han aconseguit de sincronitzar els llavis amb el so. La resta d’elements d’expressivitat de la cara no ha estat modificada, tot i que aquesta seria la següent fase de l’experiment. Això és important per a detectar la manipulació, perquè podríem trobar-nos el fals Obama fent un discurs sobre un fet tràgic amb una expressivitat de felicitat. La segona limitació és que han utilitzat àudios reals de Barack Obama mateix, corresponents a unes altres entrevistes. De moment no han sintetitzat artificialment la veu de Barack Obama, de manera que no és possible de fer-li dir qualsevol cosa. Ens mostren l’àudio d’un jove estudiant Barack Obama pronunciat perfectament per un president Barack Obama més adult. Però no li han fet pronunciar res que no hagi dit mai. Tanmateix, avisen, probablement aviat es podrà generar veu artificial completament creïble de qualsevol persona.

Pel que fa a la capacitat de detectar la manipulació, els investigadors adverteixen que la sincronització de llavis no és perfecta, i un observador molt atent pot detectar-hi alguna incoherència. En qualsevol cas, afirmen que les mateixes xarxes neuronals podrien detectar fàcilment aquelles parts modificades del vídeo, la manipulació feta mitjançant intel·ligència artificial. La mateixa tecnologia es pot fer servir en totes dues direccions.

Les aplicacions pràctiques i l’amenaça potencial de la tecnologia
Una de les aplicacions més evidents d’aquesta tecnologia, expliquen els autors, és la realitat artificial, la realitat augmentada, les videoconferències i les trucades. A partir de la nostra veu, la tecnologia podrà crear una imatge artificial nostra que pronunciï perfectament allò que anem dient. Per exemple, en una videoconferència només caldria transmetre l’àudio i no el vídeo en una trucada. O en les conferències telefòniques de negocis es podrien crear models tridimensionals dels participants asseguts en una sala de reunions en un entorn de realitat virtual.

Tot i que els investigadors no ho diuen, segurament una de les aplicacions més directes serà en el sector audiovisual. Per exemple, en pel·lícules d’animació es podrà sincronitzar la veu dels dobladors amb els llavis dels personatges. I precisament en el doblatge és on aquesta tecnologia podria aplicar-se més aviat. Podrem trobar-nos un Tom Cruise pronunciant perfectament en català, bé amb la veu del seu doblador, bé amb la seva generada artificialment. Igualment, les nostres sèries i films podran ser traduïts del català a qualsevol llengua, i els nostres actors seran capaços de parlar i pronunciar, per exemple, un xinès perfecte.

Però com totes les tecnologies, aquesta nova investigació pot tenir una aplicació positiva i una de negativa. Encara que se’n pugui detectar fàcilment la manipulació, s’ha de fer amb una tecnologia molt innovadora que encara no és a l’abast de tothom. Si bé en el cas de grans personatges públics es pot fer servir habitualment per a detectar manipulacions, en persones normals o no tan conegudes es podrien fer manipulacions que passessin inadvertides. Igualment, encara que es detectés la manipulació en un personatge públic, podria passar que es detectés massa tard. Una amenaça podria ser l’atac a la dissidència. Els estats poden tenir molts recursos, de manera que estats totalitaris o autoritaris podrien utilitzar la intel·ligència artificial per desacreditar els líders dissidents creant vídeos falsos. Atacar la dissidència amb informació falsa no és res nou, com saben alguns polítics independentistes catalans, però la utilització de vídeos falsos tindria el màxim impacte a un nivell mai no vist fins ara. Un altre perill, en estats democràtics, és que s’utilitzi aquesta tecnologia per desacreditar candidats en plena campanya electoral. Pocs dies o hores abans d’unes eleccions, podria resultar impossible de demostrar-ne la manipulació o fer enrere la mentida, encara que s’hagués destapat.

La intel·ligència artificial comença a mostrar tot el potencial, positiu i negatiu. Comencen a alçar-se veus internacionals que demanen una regulació per a controlar-ne l’aplicació i evitar-ne el mal ús.

Per a VilaWeb el vostre suport ho és tot

Sostenir un esforç editorial del nivell i el compromís de VilaWeb, únicament amb la publicitat, és molt difícil. Per això necessitem encara molts subscriptors nous per a allunyar qualsevol ombra de dificultats per al diari. Per a vosaltres aquest és un esforç petit, però creieu-nos quan us diem que per a nosaltres el vostre suport ho és tot.

Podeu fer-vos subscriptors de VilaWeb en aquesta pàgina.

Vicent Partal
Director de VilaWeb