Entrenar intel·ligència artificial en català: “L’algorisme aprèn ràpidament, és impressionant”

  • L'agència nord-americana Scale té setanta persones entrenant intel·ligència artificial generativa en català
  • És una feina flexible, fàcil de compaginar amb altres treballs i es cobra setmanalment

VilaWeb
Imatge d'arxiu d'un home fent servir el ChatGPT (fotografia: Matheus Bertelli).
Pol Baraza Curtichs
26.05.2023 - 21:40
Actualització: 31.05.2023 - 13:14

“Com a model de llenguatge AI, no tinc experiències personals com els éssers humans. Però he après la llengua catalana mitjançant un procés d’aprenentatge automàtic. M’he entrenat amb una gran quantitat de textos en català per poder comprendre i generar respostes en aquesta llengua.” Això respon ChatGPT quan li demanem com ha après el català. La intel·ligència artificial generativa ha marcat un abans i un després en l’àmbit tecnològic. N’hi ha de tota mena, però la que més s’ha popularitzat aquests darrers mesos és el chatbot que ha creat l’empresa nord-americana Open AI, que és capaç d’escriure sobre un gran ventall de qüestions. Aquestes eines requereixen entrenaments a partir d’una enorme quantitat de dades de text en diferents llengües que els permet de desenvolupar les habilitats necessàries per a processar les preguntes i desenvolupar les respostes.

Una de les agències que s’encarrega d’entrenar-les és la nord-americana Scale, que cerca redactors en unes quaranta llengües de tot el món, entre els quals, en català. També en francès, anglès, italià, alemany, japonès, coreà, noruec, danès o portuguès. Però de totes, la nostra llengua té una peculiaritat: és l’única que no té un estat de la Unió Europea (UE) darrere. La companyia encara té l’oferta publicada a la pàgina web, on detalla les condicions laborals i el funcionament del lloc de feina.

La periodista Elisabet Cortiles és una de les redactores que forma part del projecte en català. Va assabentar-se de l’oferta gràcies a Albert Cuesta, coordinador de l’Aliança per a la Presència Digital del Català i tot un referent del periodisme tecnològic, que ho va fer públic a començament de maig a l’espai “L@Net” del programa Catalunya Nit, de Catalunya Ràdio. “Treballo com a autònoma en diferents projectes i l’oferta em va cridar l’atenció, perquè vaig pensar que potser m’encaixaria amb les altres feines que faig. És una feina en remot i puc treballar amb qualsevol dispositiu. Vas sumant hores i et paguen setmanalment”, explica. No s’hauria imaginat mai que es dedicaria a entrenar intel·ligència en català, tot i que és un món que l’interessa i és conscient que fa anys que ens hi relacionem: “En els últims sis mesos, el ChatGPT s’ha disparat. No m’havia passat mai pel cap que acabaria ensenyant a parlar i a pensar en català a un algorisme.”

Com s’entrena una intel·ligència artificial?

Cortiles fa dues setmanes que forma part d’Scale. Treballa dues o tres hores el dia amb la plataforma Remotasks, molt comuna en empreses que fan feines en línia. Scale ofereix serveis a unes quantes empreses i institucions, com ara Microsoft, Meta –empresa matriu de Facebook–, Open AI, la Força Aèria dels Estats Units, Flexport –empresa multinacional nord-americana de logística de transport– i Fox –cadena de televisió nord-americana–, segons que recull la pàgina web. De moment, no els han detallat on va a parar el resultat de les tasques que fan. “Ens ha explicat breument que l’empresa treballa amb altra gent. Dissenyen algorismes i després els venen on sigui, però no ens han dit per a qui serà la feina”, comenta Cortiles. En teoria, l’oferta estipula que s’han de fer, com a mínim, vint hores la setmana. “Si en fas vuit o deu el dia, al final et queda un bon sou. Però estar-te davant l’ordinador tantes hores fent una tasca molt repetitiva és molt cansat. És una feina ideal per a compatibilitzar-la amb d’altres”, diu.

Captura de pantalla de l’oferta d’Scale per a entrenar intel·ligència artificial generativa en català

Actualment, Scale té setanta persones entrenant algorismes en català. Però què vol dir, això? Com es fa i en què consisteix? Requereix alguna mena d’especialització? Qui en pot formar part? La companyia cerca traductors i gent que estigui vinculada professionalment a l’escriptura, com ara redactors, periodistes i editors. És una feina flexible i paguen vora disset dòlars l’hora –uns setze euros. Cortiles va participar en un procés de selecció. Primer va enviar-hi el currículum en anglès, i l’endemà ja li van notificar que havia estat pre-seleccionada. Tot seguit, va haver d’enregistrar-se en anglès i català responent a unes quantes preguntes, també algunes per escrit, i finalment, va fer un text amb l’experiència laboral, també en català i anglès.

En paraules de Cortiles: “La feina és revisar què fa la intel·ligència artificial, mirar que vagi per bon camí. I si no, corregir-la i ensenyar-li en català. És un món fascinant. Dóna respostes amb una exactitud i creativitat que fa feredat.” Aquests dies s’ha dedicat a fer dues tasques. Primer, a formular preguntes al sistema: “No era una pregunta simple. Havia de ser elaborada, perquè havia de seguir uns paràmetres. Hi ha tota una sèrie de requisits i, com a mínim, se n’havien de complir tres.” També s’ha centrat en l’escriptura. “En aquest cas, et presenten una pregunta i et deixen triar entre dues opcions segons uns paràmetres, si la informació és verídica, actual, si té paraules ofensives, si és opinió o són fets reals, tècnics i concrets. Has de triar quina és la correcta”, explica. Sovint, totes dues són en català, però també n’hi ha que són en format de resposta automàtica –explicant que no té prou coneixement per a respondre–, o en anglès. En tot cas, sempre s’han d’avaluar i editar quan calgui. “En recordo una que preguntava sobre els primers casos de covid. Segons l’OMS, l’origen és a Wuhan, a la Xina, però també és cert que hi ha països que tenen altres versions. Això s’ha de valorar i explicar-ho, i també argumentar perquè s’ha triat una resposta i no una altra”, diu.

A Cortiles li sorprèn l’habilitat de l’algorisme: “Em fa la sensació que l’algorisme aprèn ràpidament. És impressionant. Ara hi ha moltes diferències amb les primeres preguntes i respostes. Ara són més escrites, tenen una cohesió més real, sembla que les hagi escrites una persona, les primeres eren més robòtiques.” No obstant això, també hi ha unes quantes errades: “Sovint hi ha faltes d’ortografia o repeteix molt certes paraules. No fa servir sinònims. En un paràgraf, potser repeteix la mateixa paraula unes quantes vegades. Un humà no ho faria. Això deu ser fruit que la major part de les vegades tradueix la resposta de l’anglès, que no té tanta diversitat de sinònims.” Són errades que veu constantment, però no té cap dubte que s’anirà perfeccionant.

Més enllà de la sensibilitat lingüística

A Cortiles li motiva divulgar el català, però també deixa clar que tenen un paper molt important més enllà de la sensibilitat lingüística. Ella és periodista i comprovar els fets és una qualitat que li ve de sèrie, però desconeix si la resta de gent fa igual. “Tots els qui hi participem tenim una gran responsabilitat a l’hora de certificar i comprovar la informació.” Això ho diu perquè s’ha trobat amb respostes amb informació esbiaixada. “Un dia una pregunta era qui havien estat els motius de l’assassinat de l’ex-primer ministre japonès Shinzo Abe. L’algorisme deia que no havia estat cap assassinat. En realitat, sí, en un acte polític, una secta que tenia vincles amb la seva família. Aquí, si un no és conscient d’això i no ho detecta, pot cometre una errada”, comenta.

Debat obert i desafiaments

L’acceleració de la intel·ligència artificial ha cridat l’atenció d’experts i capdavanters de l’àmbit de les noves tecnologies. Alguns van signar a final de març una carta conjunta en què demanaven d’aturar sis mesos el desenvolupament de ChatGPT. “Els sistemes poderosos d’IA només s’han de desenvolupar quan estiguem segurs que els seus efectes seran positius i que els seus riscs seran controlables”, expressaven en la carta. Entre els signants hi havia Elon Musk, fundador de Tesla i cofundador d’OpenAI; el cofundador d’AppleSteve Wozniak, i el CEO de Stability AI, Emad Mostaque.

Concretament, demanaven una pausa fins que no s’implementin sistemes de control clars i una legislació que s’adaptés als avenços dels darrers mesos: “La humanitat pot gaudir d’un futur pròsper. Havent tingut èxit en la creació de sistemes d’intel·ligència artificial poderosos, ara podem gaudir d’un ‘estiu d’IA’ en què recollim les recompenses, dissenyem aquests sistemes per al benefici clar de tots i donem a la societat l’oportunitat d’adaptar-se.”

Poc després de la publicació de la carta, Itàlia va prendre una decisió pionera: blocar temporalment l’ús del ChatGPT. S’emparava en una absència legal que justifiqués la recollida i la conservació de dades personals en massa per part dels desenvolupadors. El 20 de març, ChatGPT va perdre dades de converses d’usuaris. A mitjan abril, l’Agència de Protecció de Dades espanyola (AEPD) va obrir una investigació d’ofici a OpenAI per un possible incompliment de la normativa. Considerava que els tractaments globals que poden tenir un impacte important sobre els drets de les persones requerien accions harmonitzades i coordinades a escala europea.

En l’àmbit educatiu, la irrupció de la intel·ligència artificial també presenta un bon reguitzell de desafiaments als docents. Els alumnes ja la fan servir a vegades per a evitar de fer treballs o per a copiar en exàmens. Encara no és clar com haurien de reaccionar-hi els centres educatius. De moment, els professors diuen que tenen mecanismes per a saber distingir quan un alumne copia, però s’han començat a trobar alguns problemes i per això consideren que s’hauria d’implementar canvis a l’hora d’avaluar, i intentar que els alumnes la fessin servir amb una mirada més crítica.

Recomanem

La premsa lliure no la paga el govern. La paguem els lectors.

Fes-te de VilaWeb, fem-nos lliures.

Fer-me'n subscriptor
des de 75€ l'any