Albert Cuesta: “La intel·ligència artificial a Google tindrà un efecte terrible per al català a internet”

  • Entrevista al periodista i coordinador de l'Aliança per la Presència Digital del Català, que ha presentat un nou estudi sobre la millora de la visibilitat del català a Google  

VilaWeb
Blai Avià i Nóvoa Albert Salamé (fotografies)
13.06.2024 - 21:40
Actualització: 14.06.2024 - 17:46

Durant anys, el català ha estat –o, si més no, ho ha semblat– una llengua de segona a Google. Aparentment, el problema sempre era el mateix: per molt que l’usuari tingués el dispositiu configurat en català, i per molt que el fes servir a les xarxes, la llengua en què apareixien els resultats quan hi feia cerques era, una vegada i una altra, el castellà.

Després d’anys de queixes estèrils, l’any passat es passà a l’acció i es constituí l’Aliança per la Presència Digital del Català, un front comú creat amb l’objectiu explícit de posar dades al fenomen i lluitar per a capgirar-lo. Després de publicar un primer report l’any passat que demostrà –a partir de l’anàlisi de més sis-centes pàgines web– que Google havia fet perdre visites a dos terços de les pàgines en català, aquest cap de setmana el grup ha publicat, de bracet de la Fundació.cat, un nou estudi que demostra que, en qüestió d’un any, la situació de la llengua a internet ha experimentat un canvi radical: lluny de minvar, el pes relatiu del català a les cerques ha passat d’un 34% el març del 2022 a un 52% a començament d’enguany. En parlem amb Albert Cuesta, periodista i coordinador de l’Aliança, que, tot i celebrar la millora de la situació, alerta contra el cofoisme i esbossa els envits que la llengua haurà d’encarar per continuar guanyant terreny a les xarxes.

El català està millor ara que fa un any i mig?
—El català a internet està molt millor que fa un any i mig. Això és així perquè vam demostrar a Google que tenia un problema que no sabia que tenia, que és que penalitzava la visibilitat de les webs en català als resultats de cerca. Arran d’aquesta demostració, Google va introduir uns canvis a l’algorisme –el primer dels quals va ser el setembre del 2023– que han propiciat una millora substancial de la visibilitat dels continguts en català. El que publiquem ara des de l’Aliança i la Fundació.cat és una actualització d’un informe que ens va permetre arribar a la conclusió que hi havia un problema amb el català a partir de l’anàlisi del trànsit de més de sis-centes webs multilingües i mirar-ne l’evolució en el trànsit de cadascuna de les llengües. El juny del 2023 vam comprovar que el trànsit a la versió en català havia caigut en dues de cada tres webs d’aquestes pàgines, i de manera considerable. En el 80% dels casos, aquest trànsit perdut a la versió en català se l’havia endut la versió en castellà. Va ser aleshores que ens vam posar en contacte amb el departament d’enginyeria de Google, que ens va dir que no era conscient del problema i que intentaria posar-hi remei.

D’aleshores ençà, quin ha estat el canvi?
—Hem refet l’estudi d’ençà del canvi d’algoritme, l’agost passat, i hem comprovat que la millora ha estat considerable: respecte al pitjor moment de la crisi de visibilitat del català, a final del 2022 i començament del 2023, el català abastava un 34% del trànsit del conjunt de les webs analitzades; ara és més del 56%. És un guany de vint-i-dos punts percentuals en qüestió de pocs mesos. Per això considerem que la posició del català a internet ara és bona.

Parlem d’un canvi molt gran en molt poc temps.
—No han estat ni mesos, de fet: d’un dia per l’altre d’ençà del canvi d’algorisme ja vam notar canvis. Això no fa sinó demostrar la dependència que tenen les webs del trànsit que els aporta Google. Demostra que l’algorisme de Google determina, entre moltes altres coses, a quin idioma dóna preferència. De fet, el motiu pel qual a nosaltres ens va semblar que estava justificat abordar Google era que el cercador havia deixat de respectar les preferències de l’usuari. Quan configures l’ordinador o el navegador, li pots demanar que doni preferència als resultats en català. El que vam comprovar aleshores és que això no passava: tu podies tenir configurat el teu entorn de navegació en català, però Google no ho respectava. Ara, en canvi, sí que ho respecta. També és cert que això no és una ciència exacta: a vegades, és difícil de detectar què és una cerca en català i què no ho és.

El periodista i analista, Albert Cuesta, coordinador del programa Català digital de la Fundació .cat.
Fotografia: Albert Salamé.

A què us referiu?
—Hi ha cerques que, per defecte, són ambigües: la paraula “Barcelona”, per exemple, en quin idioma és? Si cerques un terme o una expressió que és inequívocament en català, la tendència és que Google et respongui amb contingut en català. Si Google no pot inferir en quin idioma fas la cerca, mirarà unes altres coses: el teu historial de navegació, l’idioma de configuració del teu compte de Google, l’idioma en què tens configurat com a primer idioma el navegador, etcètera.

I ací és on entren en joc les preferències de llengua de l’usuari?
—Hi ha una cosa que ha de quedar clara: si tu no li dius a Google que ets catalanoparlant, després no tens dret a queixar-te si no t’ensenya continguts en català. Al començament de l’estudi, vam veure que molta gent que es queixava que Google no els mostrava continguts en català ho feia des de mòbils configurats… en castellà.

Així doncs, què han de fer els usuaris per a potenciar la visibilitat del català a internet?
—Visites majoritàriament webs en català i fas servir aplicacions en català? Perquè molta gent no ho fa. N’hi ha molts que es posen les mans al cap amb això del català, i després resulta que són els mateixos que van a TripAdvisor tot i que podrien anar a Booking, per exemple, o que continuen fent servir Instagram, que ni té en compte el català. Hi ha molta feina a fer, i nosaltres la volem fer, però també necessitem que la gent sigui coherent. La principal cosa que l’usuari pot fer per afavorir la visibilitat del català és catalanitzar-se tot l’entorn de navegació: el mòbil, l’ordinador, el sistema operatiu, l’idioma preferent del navegador, l’idioma del perfil d’usuari de Google, etcètera. Tot això són coses que Google, quan fas cerques, triangula per a decidir en quina llengua et respon. Com més d’aquestes coses siguin en català, més probable és que la resposta sigui en català.

El problema, per tant, no comença i acaba amb Google.
—És imprescindible que els usuaris ens manifestem com a catalanoparlants. Hem d’augmentar el cens de catalans a internet, perquè a internet hi ha molts catalans que no hi figuren com a tals. Tu pots ser català i escriure i llegir sempre en català, però si tens el mòbil configurat en castellà o anglès, les empreses tecnològiques no et comptaran com a catalanoparlant, sinó com a hispanoparlant o angloparlant. Les plataformes digitals ho mesuren tot. Quan tu entres en una web o en una aplicació mòbil, ells miren qui ets: quina adreça IP tens, si navegues amb un mòbil o un ordinador, i quin és el teu idioma de preferència. L’única manera que les empreses digitals facin cas del català és que siguem molts. I l’única manera de ser molts, digitalment, és aquesta: catalanitzar el nostre entorn de navegació. Fent servir el català a internet no n’hi ha prou: cal que l’usuari digui al seu telèfon –al seu ordinador, a les plataformes que faci servir, etcètera– que prefereix el català. I això és una cosa que cal que cadascú faci pel seu compte.

El periodista i analista, Albert Cuesta, coordinador del programa Català digital de la Fundació .cat.
Fotografia: Albert Salamé.

Una de les conclusions que es deriven dels resultats de l’estudi és que el trànsit de cerques en català a Google és molt volàtil. Quines conseqüències té això en el contingut en català a internet?
—Quan tu crees un contingut digital esperes una audiència: t’adreces a un mercat i n’esperes uns resultats. En el cas de les empreses privades, n’hi ha que tenen una política comercial basada a adreçar-se al mercat catalanoparlant. Si els continguts en català perden visibilitat, aquestes webs perden negoci. El trànsit que ve dels cercadors continua essent la principal porta d’entrada als continguts web: un canvi en l’algorisme de Google pot ensorrar negocis sencers. La situació del català a Google és molt fràgil. Google va fer un canvi en el seu algorisme, pels motius que fossin, i el català va caure; després en va fer un altre i la situació va millorar molt ràpidament. Amb això vull dir que tot pot canviar en qualsevol moment: de la mateixa manera que la situació ha millorat per un canvi en l’algorisme, tot se’n pot anar en orris per un nou canvi.

L’estudi se centra en els canvis en l’algorisme. Però què més creieu que pot fer Google per al català? En què hi ha marge de millora?
—Nosaltres creiem que sempre hi ha marge de millora. La sensibilitat de Google a les preferències lingüístiques no tan sols afecta el català, sinó totes les llengües no majoritàries. De fet, Google no ens va fer cas a nosaltres perquè fóssim catalans; ens va fer cas perquè érem el canari a la mina que els demostrava que no tractaven correctament llengües més petites, com ara el danès o l’hongarès, que tenen estat i tot. Si Google manté el seu tractament a les llengües no majoritàries, cosa que pot canviar en qualsevol moment, crec que és important treballar perquè hi hagi més contingut en català de més qualitat i perquè hi hagi més demanda implícita del contingut en català per dispositius i usuaris configurats en català. Hi insisteixo: tot això pot canviar. Però en aquest moment el problema del català a internet ja no és Google.

A l’estudi, expliqueu que en ocasions anteriors hi ha hagut fluctuacions esporàdiques en el trànsit en català. Us preocupa que l’alça d’aquests darrers mesos no sigui una tendència, sinó un rebot?
—Nosaltres vam tancar l’estudi uns sis mesos després del canvi d’algorisme, a final de febrer. A mitjan març, Google va presentar un altre canvi a l’algorisme, i d’aquí a sis mesos ho tornarem a mirar a veure què ha passat, perquè volem veure com ha evolucionat i tenim la sospita que la situació s’ha deteriorat una mica. Hi ha molts factors que afecten la visibilitat del català a les cerques de Google, com ara la qualitat del contingut en català i castellà. Una altra de les coses que hem comprovat amb l’estudi és que hi ha pàgines –fins i tot d’organismes oficials catalans– que no són etiquetades correctament perquè et surti el primer resultat en català quan les consultes. Sí que tenim clar que no hi ha mala intenció per part de Google. És a dir: que la pèrdua de la visibilitat del català va ser un dany col·lateral de factors que no hi tenen res a veure. Perquè te’n facis una idea, nosaltres tenim la sospita que Google ni tan sols sabia que hi havia un problema amb les cerques en català quan els vam alertar per primera vegada. Valorem positivament que Google vulgui resoldre les coses, però com que continua fent canvis constants a l’algorisme, no descartem que la situació es torni a deteriorar. Nosaltres hem fet una anàlisi –molt limitada– del trànsit de març i abril amb unes quantes de les nostres webs col·laboradores, i ens sembla que la situació s’ha començat a degradar –tot i que és cert que no tan sols s’ha degradat en el cas del català, sinó també en el cas del castellà. Per això hem decidit que, a final d’agost, farem sis mesos més d’anàlisi per a veure com evoluciona i que, segons l’evolució, hi intervindrem.

És interessant de veure que els canvis en el trànsit en català i en espanyol van inversament correlacionats: si l’un puja, l’altre baixa. Els canvis en el trànsit en anglès, en canvi, no tenen cap efecte sobre el trànsit en català.
—Això és bàsicament perquè les webs que hem mirat, majoritàriament, tenen continguts en català i castellà.

Però també n’hi ha moltes que tenen continguts en anglès, i els canvis en el trànsit en anglès no semblen afectar de cap manera el català.
—Google, entre els molts senyals que fa servir per decidir quin és el resultat més adient a allò que cerques, també té en compte la localització. Quins resultats dóna una mateixa cerca feta a la Pobla de Segur, a Madrid, a Zuric o San Francisco? Haurien de ser diferents, és clar. Posem-ne un exemple: si tu cerques “Kursaal” a Manresa, t’ha de sortir al teatre Kursaal de Manresa. Però si ho cerques a Sant Sebastià, t’ha de sortir el Kursaal de Sant Sebastià. Una de les coses que encara comencem a explorar és si la mateixa cerca dóna resultats semblants a València i Cardedeu, o a Catalunya Nord, o a la franja de Ponent. Ara, encara no en tenim prou dades.

Fa poc Google ha anunciat que començarà a incorporar la intel·ligència artificial als seus resultats de cerca. Quin efecte creieu que pot tenir en el trànsit per als continguts en català?
—Tindrà un efecte terrible. Fins ara, la manera habitual de consultar informació era mitjançant un cercador. Ara sembla que comença a passar –de manera molt incipient, encara– que la gent fa cerques directament per xatbots, com ara ChatGPT. Pot semblar que la irrupció dels xatbots és positiva per al català a internet: si tu fas preguntes en català a un xatbot, et respondrà en un català prou natural. El problema és d’on treu la informació que et facilita. Més d’un 50% d’internet és en anglès: per tant, és probable que almenys un 50% de la informació que et facilita un xatbot sigui originalment en anglès. Pot ser que tot allò que et digui t’ho digui en un català correctíssim, però que ho hagi llegit originalment en anglès o en una altra llengua. Els xatbots són una caixa negra: nosaltres no podem saber què fan servir, exactament, per entrenar els xatbots. Però sí que podem suposar que els xatbots, al cap i a la fi, no fan res més que cercar a internet a l’hora de respondre a les preguntes dels usuaris. Per tant, com més bona sigui la visibilitat del català a les cerques que els xatbots consulten, més adaptades a la nostra idiosincràsia –a la nostra cultura– estaran les respostes. Com més contingut en català hi hagi, més aflorarà i més visible serà. És un peix que es mossega la cua.

Recomanem

La premsa lliure no la paga el govern. La paguem els lectors.

Fes-te de VilaWeb, fem-nos lliures.

Fer-me'n subscriptor
des de 75€ l'any
Fer-me'n subscriptor