18.05.2024 - 21:40
En la cursa per l’hegemonia en el camp de la intel·ligència artificial generativa (la que genera text, imatges i vídeo) OpenAI és la màxima referència. I aquesta setmana no ha defraudat, en la presentació de la darrera evolució del seu popular ChatGPT. En termes tècnics, ha presentat el nou model GPT-4o, que ara pot reconèixer text, veu i imatge alhora, i a una velocitat increïble. A més, ha millorat l’expressivitat de la veu, si més no en anglès, i a més de tenir una pronúncia gairebé indistingible d’un humà, ara pot mostrar sentiments i s’expressa amb tons sarcàstics, dramàtics o d’alegria, per exemple. Però, sens dubte, la cosa que més ha sorprès els analistes és la seva capacitat de traducció en temps real, amb una qualitat molt bona. A més, la companyia ha anunciat que les setmanes vinents oferirà les noves capacitats als comptes gratuïts. Això sí, en tindran limitat l’ús, de manera que, si volem fer-lo servir més, haurem de pagar. Tanmateix, el nou model no resol les principals crítiques a la intel·ligència artificial generativa. Tot seguim, analitzem la situació i quin impacte té per a l’ús del català.
Les novetats principals del nou model GPT-4o
ChatGPT és un bot la funció principal del qual és conversar. Es basa en models de llenguatge extens (MLE, o LLM en anglès) que processen el llenguatge de manera natural. Senten allò que diem, ho transcriuen, analitzen el text transcrit i en generen un de resposta que, finalment, transformen en veu. Aquest procés és extremadament complex i fa dècades que s’hi treballa. Tanmateix, el desenvolupament de les tècniques associades a la intel·ligència artificial (aprenentatge automàtic, xarxes neuronals, aprenentatge profund, entre més) han fet que aquests darrers anys aquests models hagin evolucionat enormement i siguem en un moment de disrupció, de canvi de paradigma tecnològic. És per això que totes les grans companyies hi inverteixen, i també és el motiu pel qual van apareixent empreses emergents, amb OpenAI com a vaixell insígnia. Quan canvien les regles del joc, tens una oportunitat per a situar-te al capdavant i arraconar els qui havien dominat el mercat fins el moment.
Actualment, l’evolució dels MLE se centra en dues línies. Per una banda, tenir com més va més paraules i paràmetres. A hores d’ara, els més desenvolupats en tenen desenes de milers de milions, literalment. Això fa que treballar amb ells requereixi una gran capacitat de càlcul, motiu pel qual les companyies competeixen per construir els superordinadors més potents del món. Però els models grans tenen un problema afegit, que és el temps de resposta, la latència, en termes tècnics. Com més paràmetres tingui en compte, més precís serà, però també trigarà més, ja que n’ha de considerar més. És per això que l’altra línia d’evolució dels MLE és generar models simplificats que puguin funcionar en ordinadors comuns i fins i tot mòbils, de manera que obtinguem una resposta ràpida, com quan parlem amb una persona. Això fa que les companyies d’intel·ligència artificial generativa, quan presenten un nou model de llenguatge extens, en presentin dos: el gran i la seva versió petita, simplificada.
OpenAI feia poc més d’un any que havia presentat el model GPT-4. Però el nou model que ha presentat fa pocs dies no es diu GPT-5, com caldria esperar amb un model amb més paràmetres i paraules, sinó que es diu GPT-4o, amb la lletra o per omni, en referència al fet que el nou model pot treballar reconeixent veu, text, imatges i vídeo alhora. A partir d’ara, podrem activar la càmera del mòbil i ChatGPT reconeixerà allò que hi surti. Correspon a una altra de les grans innovacions aconseguides. En els models anteriors, cal passar la veu a text, processar el text, generar el text de resposta i generar veu, com comentàvem. Cada un d’aquests processos els fa una xarxa neuronal diferent. I amb la imatge, calen xarxes neuronals addicionals. Amb el nou GPT-4o, es fa servir una única xarxa neuronal per a fer tot això. El resultat més evident d’aquesta fia és que ara ChatGPT ho fa tot molt més ràpidament.
Si GPT-3.5 tardava 2,8 segons a generar una resposta, i GPT-4 en tardava 5,4 (pel fet de ser més gran és més bo, però necessita més temps), el nou GPT-4o pot proporcionar respostes en mil·lisegons. A més, de manera més precisa, perquè en els models en què les tasques se subdivideixen en diverses xarxes neuronals es perd molta informació –com ara, el to de veu, si hi ha més d’un parlant o el so de fons– i la resposta no pot expressar emocions, com riure o cantar, per exemple. Amb GPT-4o i el seu processament integral, OpenAI ha fet possible tot plegat, de manera que proporciona un llenguatge més natural.
Traductor universal: s’ha acabat haver de parlar unes altres llengües per necessitat?
Una altra de les millores del nou ChatGPT és en la tokenització. Els models no treballen directament amb les paraules, sinó que les paraules es transformen en xifres, en tokens. GPT-4o necessita fins a quatre vegades menys tokens per a representar una llengua, tot i que en algunes la millora és tan sols del 10%. Això permet que augmenti la velocitat de processament, però també la precisió i l’enriquiment de la resposta. També, que es puguin traslladar més fàcilment les millores d’una llengua a una altra, malgrat que sempre caldran retocs específics per a cada llengua. Per aquest motiu, l’anglès és la llengua de més qualitat, però també és la raó perquè unes altres llengües, com el català, s’aprofitin de les seves millores automàticament.
Que ChatGPT sigui en català va ser una de les grans victòries de l’activisme i el voluntariat per la llengua a internet. Una victòria que pot ser cabdal per al futur del català. Fins ara, tots els assistents de veu (Siri, Alexa…) excloïen el català, malgrat les reiterades peticions dels usuaris. OpenAI va adoptar una opció no ideològica a l’hora de triar les llengües: va elegir les cent llengües més actives a internet, i el català n’és una. Això ha permès que la nostra llengua sigui a la primera divisió mundial en el desenvolupament de la intel·ligència artificial més innovadora. Particularment, en una de les novetats més destacades en la presentació del nou GPT-4o, que és la traducció en temps real. És a dir, que puguem demanar amb la veu a ChatGPT que quan senti una llengua la tradueixi automàticament a una altra i a l’inrevés.
A VilaWeb hem fet proves de traducció entre el català i unes quantes llengües (anglès, albanès, japonès, danès, urdú, persa i suahili) i, tot i algun petit malentès, el resultat és força espectacular, tenint en compte que no ha estat desenvolupat específicament per al català, com podeu comprovar en aquest àudio:
És la primera vegada que hi ha a l’abast de tothom una tecnologia d’aquesta mena, i això ens fa pensar fins a quin punt podrem prescindir de canviar de llengua i mantenir el català en qualsevol circumstància. Que ens trobem a un turista? Cap problema, traiem el mòbil, executem l’app de ChatGPT (i en el futur, unes altres) i li expliquem en català allò que ens demani. Que ens trobem un metge o un cambrer que diu que no entén el català i ens exigeix que parlem castellà? Podem continuar parlant en català i que ChatGPT els ho expliqui. Els models anteriors de ChatGPT ja eren molt bons escrivint i traduint text al català. Ara s’hi inclou també la capacitat de fer-ho de viva veu.
Un aspecte important a considerar és que la veu en català no és tan bona com l’anglesa. A les opcions de configuració, l’app de ChatGPT comparteix per omissió el text que escrivim per a millorar el model (ho podem desactivar). Però, en canvi, la compartició d’àudio està deshabilitada per defecte. Si volem contribuir a la millora de la veu de català, i essent conscients dels riscs en la nostra privadesa (OpenAI afirma que la protegeix), podem compartir les nostres converses. Cal tenir en compte, però, que el GPT-4o és un model privatiu, a diferència d’uns altres models lliures. Les millores no podran ser aprofitades per uns altres models. Però millorar el model de veu per al català a ChatGPT pot tenir grans implicacions, atès el model de negoci pel qual opta OpenAI.
La tecnologia rere ChatGPT és emprada per Microsoft, mentre OpenAI sembla que negocia amb Apple
ChatGPT no és un assistent en sentit estricte per un aspecte important: no pot interaccionar amb les nostres apps i programes. Si més no, per ara. És a dir, podem parlar-hi, però si li demanem que ens afegeixi una cita a la nostra agenda, no ho podrà fer. Ni tampoc amb el programari ofimàtic per a redactar documents, ni el gestor de correu ni cap altre programa. De moment, ChatGPT té una interfície web, una app al mòbil i, com a novetat, una app per a MacOS, però actuen de manera aïlla. D’aquesta manera és difícil que acabi triomfant, perquè, al final, un usuari cercarà que ChatGPT li faci d’assistent personal. Que pugui gestionar-nos l’agenda, afegint-hi compromisos i eliminant-ne, que truqui al metge per demanar hora, o que reservi taula en un restaurant, o que ens escrigui un correu electrònic mentre l’hi dictem.
De moment, OpenAI se centra en el desenvolupament dels seus models, i aquesta segona part sembla que la farà venent la seva tecnologia a tercers, si més no, per ara. De moment, Microsoft, que ha fet una forta inversió a OpenAI, va incorporant progressivament els models GPT als seus productes ofimàtics i de programació. És a dir, més que ChatGPT s’apropiï del nostre ordinador i el nostre mòbil i els passi a fer servir, seran els programes i apps d’aquests aparells els que incorporaran la tecnologia de ChatGPT.
D’acord amb alguns mitjans, OpenAI i Apple són a punt de tancar un acord similar al de Microsoft. La companyia de la poma, tot i ser una pionera amb productes com l’assistent Siri, i l’ús d’aprenentatge automàtic i xarxes neuronals en el processament de les fotografies a l’iPhone, s’ha quedat enrere en la intel·ligència artificial generativa. Accedir als models de ChatGPT permetria de no quedar-se enrere en aquesta cursa i que els seus productes continuessin innovant.
La competència és ferotge, però les crítiques continuen essent vàlides
Amb GPT-4o, OpenAI s’ha posat al capdavant de la cursa per la intel·ligència artificial generativa. Però podria ser per poc temps, perquè els rivals també van presentant els seus models de llenguatge extens, i compten amb grans recursos. Google té el model propietari Gemini, en què Apple sembla que també està interessat per a Siri, en una negociació paral·lela a OpenAI. Google també ha publicat fa poc Gemma, una versió reduïda del Gemini i, molt important, de codi lliure. De moment, el català no hi és inclòs, però tenint en compte que Google ofereix bona part dels seus productes en la nostra llengua, i amb l’exemple de ChatGPT, seia esperable que l’inclogués en el futur, tot i que no és segur. L’altra gran multinacional informàtica, Meta, propietària de Facebook, WhatsApp i Instagram, té el model Llama 3, que és de codi obert i sí que inclou el català. La companyia ha dit que serà incorporat pròximament en les seves apps, acció que farà que la intel·ligència artificial generativa arribi a milers de milions de persones de cop.
A casa nostra, i dins el Projecte Aina, el Barcelona Supercomputing Center (BSC) ha desenvolupat el model Flor per al català, l’anglès i el castellà, també de codi obert. Que els models d’intel·ligència artificial siguin de programari lliure és cabdal per als milers de comunitats lingüístiques de tot el món que, ara per ara, no poden accedir a aquesta tecnologia, que pot ser decisiva per a la seva supervivència i revifament, i, en molts casos, evitar-ne l’extinció. Com hem vist, hi ha una part de la tecnologia que es desenvolupa per a una llengua però que és aprofitable en gran part per a moltes més. Les companyies privades, que, al cap i a la fi, no han de perdre diners, poden decidir de no dedicar recursos per acabar d’afinar els models a llengües com el català, l’occità, l’aragonès o el bretó, per exemple. En models propietaris com GPT o Gemini, la cosa quedaria aquí. Però amb models lliures com Llama, Gemma o Flor, són les mateixes comunitats lingüístiques les que poden decidir si els adapten a les seves llengües.
Més enllà d’això, i malgrat l’espectacularitat dels nous desenvolupaments, les crítiques cap a la intel·ligència artificial generativa continuen essent plenament vàlides, com apunten els experts i analistes. I és que serveis com ChatGPT poden donar molta informació, però no l’entenen. Reprodueixen fets clarament falsos com si fossin veritat i, fins i tot, ens menteixen directament (i quan ho detectem, es disculpen com si no passés res). És incapaç de dubtar o posar-nos en context una informació. De fet, ChatGPT ja ens adverteix que pot cometre errades i que en comprovem la informació. Però aleshores, si no ens podem refiar d’allò que ens diu, de què ens serveix? Ara mateix, ChatGPT és un assistent que, si fos humà i l’haguéssim contractat, possiblement l’acomiadaríem el primer dia pels errors que comet i els problemes que ens podria ocasionar.
El sector tecnològic és conscient d’aquest problema greu, però la solució no serà fàcil ni immediata, i ens ha de dur al desenvolupament de la intel·ligència artificial genèrica (AGI, en anglès). És a dir, una intel·ligència autònoma capaç d’aprendre, raonar, posar en context la informació i detectar errors, com si fos un humà. De moment, les companyies se centra en la intel·ligència artificial generativa, la que fa coses, encara que, sovint, les faci malament. Correspon als usuaris explorar aquelles eines que li puguin ser útils en el dia a dia. De moment, i malgrat els grans anuncis, no són gaires.