Albert Cuesta: “És gravíssim que l’algorisme de Google perjudiqui la cultura catalana”

  • Entrevista al periodista i coordinador de l'Aliança per la Presència Digital del Català · És el front comú d'entitats que ha fet un estudi que demostra la discriminació del català per part de Google

VilaWeb
Clara Ardévol Mallol
06.06.2023 - 21:40

Ja fa mesos que usuaris de Google denuncien que, tot i tenir el dispositiu en català, el navegador en català i la configuració de Google en català, els resultats que ofereix el cercador mostren les pàgines en català molt més avall que no era habitual. Ara el fenomen s’ha pogut demostrar amb dades: l’Aliança per la Presència Digital del Català, el front comú per a garantir la presència de la llengua a internet, ha publicat un estudi que analitza el trànsit de 639 llocs web multilingües dels sectors públic, acadèmic, mediàtic i empresarial. Una de les conclusions és que, del maig del 2022 fins ara, Google ha fet perdre visites a dues de cada tres webs en català. En el 66,5% dels llocs web analitzats l’opció de llengua en llengua catalana ha reduït la visibilitat respecte del contingut equivalent en castellà. En parlem amb Albert Cuesta, periodista i coordinador de l’Aliança, que explica que l’estudi és un primer pas perquè els cercadors s’adonin que tot plegat és un problema real i quantificable i comencin a emprendre accions per a resoldre’l.

Com heu fet l’estudi i què heu analitzat exactament?
—Hem evitat les percepcions subjectives de les xarxes socials i hem volgut tenir dades per a abordar els departaments d’enginyeria dels cercadors, especialment Google, que té més del 95% de la quota de mercat aquí. Volem demostrar-los que el problema existeix i quina n’és la magnitud. Hem demanat a desenes d’entitats privades i públiques que tenen webs en català i, pel cap baix, en un altre idioma que ens proporcionessin les dades del seu trànsit del gener del 2021 fins ara, garantint-ne la confidencialitat. Aquestes dades havien de ser de visites procedents de cercadors i de resultats orgànics, tot descartant els accessos directes i les visites d’enllaços patrocinats. Algunes entitats han enviat dades després del tancament, però tenim previst d’ampliar l’informe.

Heu conclòs que el català perd visites, que van a webs en castellà.
—La primera conclusió és que, de les 639 webs analitzades, dues de cada tres han perdut trànsit procedent de Google. La segona conclusió és que en un 80% dels casos, una pàgina vista perduda per la versió en català l’ha guanyada la versió en espanyol. Això és una pista important per als cercadors perquè, amb les webs que tenen versió en anglès, aquesta correlació és molt més baixa. Cal que el català perdi quatre pàgines perquè l’anglès en guanyi una. I la tercera conclusió, que creiem que és l’origen del problema, és que Google ha deixat de respectar les preferències lingüístiques de l’usuari. Abans del maig del 2022, si un usuari es configurava l’entorn de navegació explícitament en català, Google donava prioritat als resultats en català, i ara no. Aquest fet és el més greu. Els cercadors poden fer el que vulguin amb els seus algorismes, però tenim el dret d’exigir-los que respectin la preferència lingüística de l’usuari.

No podeu arribar a cap conclusió sobre per què passa. Heu descartat que hi hagi una voluntat expressa per part de Google, però quines hipòtesis teniu? 
—Sí, no creiem que hi hagi una mà negra. Google té la majoria dels seus altres productes i serveis en català. Ens limitem a fer present aquesta correlació tan estreta perquè els enginyers de Google puguin treure’n conclusions. A l’Aliança hi ha gent amb molta qualificació tècnica i s’han discutit diverses hipòtesis, com ara defectes amb l’etiquetatge de l’html que puguin produir alguna confusió en l’idioma. Però resulta que amb les webs que hem estudiat n’hi ha que no estan ben etiquetades del punt de vista lingüístic i no són afectades pel problema, i en canvi n’hi ha que sí que són etiquetades correctament segons la recomanació de Google i, malgrat això, han perdut trànsit. Això ha de donar alguna pista a l’enginyeria de Google per a resoldre-ho.

I parleu d’un cas concret que també els pot servir.
—Sí, una altra cosa que els ha de donar pistes és aquest cas: una empresa amb web amb versió en català i espanyol que ha aconseguit que la versió en català tingui el trànsit que li correspon després d’haver forçat la desindexació de la versió en espanyol. Això ha fet que, per al cercador, la versió en espanyol desaparegui i ha recuperat el trànsit de la web en català, que és allò que li interessava per política comercial.

Hi ha la possibilitat que s’interpreti que els catalanoparlants entenen el castellà i que per això es mostrin aquests resultats directament?
—És possible, però nosaltres no tenim accés al funcionament de l’algorisme de Google. Tenim la sospita que Google, com els altres cercadors, aquests últims mesos ha tocat moltíssimes coses dels seus algorismes, per exemple per a incorporar-hi funcions d’intel·ligència artificial avançada. Creiem que, en el cas del català, se’ls ha escapat. Algun dels canvis dels milers de paràmetres que afecten la classificació de les cerques ha afectat el català.

Sembla un problema molt tècnic i concret, però les conseqüències per a la llengua són molt greus. Quina diríeu que és la magnitud del problema en un moment com l’actual?
—No són greus només per a la llengua, sinó per a la cultura. És gravíssim que un algorisme perjudiqui una cultura. L’enfocament del contingut a partir d’una perspectiva catalanoparlant pot ser molt diferent del mateix contingut fet a partir d’una perspectiva hispanoparlant. I si el cercador afavoreix que la versió que tu veus sigui la feta a partir d’una perspectiva castellanoparlant o de la cultura espanyola, la cultura catalana perd visibilitat. El pal de paller de la cultura catalana és l’idioma. Cal una solució urgent perquè ara comencen a agafar pes els chatbots, com el ChatGPT, i el diàleg amb ells emmascara aquest problema. El ChatGPT et pot respondre en un català perfecte, però el contingut de la resposta ni tan sols l’ha tret de l’espanyol, sinó de l’anglès.

Què implica?
—Informació sobre Mercè Rodoreda la treu de la Viquipèdia en anglès, però no és de la mateixa qualitat que la de la Viquipèdia en català. Open AI ha reconegut que el seu chatbot és entrenat amb el contingut de la internet oberta, i més de la meitat és en anglès. Miren de millorar-ho i han obert un projecte específic amb la llengua islandesa com a model d’allò que s’hauria de fer amb altres llengües minoritàries o minoritzades.

Què caldria fer ara amb la qüestió de Google?
—El govern ens va demanar aquest estudi i li n’hem fet el lliurament formal. Ells el fan circular entre els seus contactes institucionals i nosaltres l’hem fet arribar als nostres contactes tècnics de Google i de més cercadors. També posem a disposició de Google i dels altres cercadors els recursos tècnics dels membres de l’Aliança, que en algun cas són d’una alta qualificació tècnica. Volem ajudar-los a resoldre un problema que fins ara no sabien que tenien o quina magnitud tenia.

Com es pot aconseguir que Google reaccioni?
—La manera d’aconseguir-ho és posar-hi xifres, com hem fet, i fer-les arribar a l’interlocutor. Una campanya de boicot o de queixa pública no ha servit gairebé per a res. Hem mirat de correlacionar les caigudes de trànsit del català amb les intervencions públiques que Google ha fet amb el seu algorisme i es veu com Google, a final de l’any 2022, va tocar coses i que alguna de les mètriques va resultar afectada. Per tant, el català va tenir una petita revifalla, però va ser anecdòtica: després va tornar a caure. No podem exigir res a Google si no li demostrem de manera fefaent que tenim un problema amb ell o que ell té un problema amb nosaltres. I ho fem amb aquest informe.

Com valoreu l’actitud de Google fins ara?
—Google va respondre públicament en una campanya de tweets, però no ens consta que allò anés més enllà d’una operació d’imatge pública. Primer deien que no passava res, després que sí… Ens consta que hi han fet alguna cosa, però el resultat pràctic és que el català continua minoritzat i marginat. Quant als canals institucionals, qui sembla que ha fet passes en aquest sentit és el govern de la Generalitat de Catalunya. Google els va dir que, si els proporcionaven dades, s’ho mirarien, i ens les van demanar. Esperem que ho resolguin, però no sabem quan. Ara podem demanar-los explicacions i que ens diguin com pensen reaccionar a aquestes dades tan flagrants.

Creieu que les administracions haurien de ser més activen respecte d’aquest problema?
—Ens hi vam posar en període pre-electoral i ens hem centrat en les relacions amb el govern de la Generalitat, que és el més estable en aquest moment. Sabem que tenen interlocutors i han acceptat que l’Aliança sigui present en la interlocució del govern amb Google.

Usuaris i empreses poden fer-hi res?
—De passes a fer, n’hi ha dues més. Una és ajudar tots els internautes catalanoparlants a confirmar que tenen configurat correctament el seu entorn de navegació web, que els internautes catalanoparlants apareguin tècnicament com a tals. Hi ha molta gent que parla català i que té el mòbil configurat en anglès, i per als cercadors compten com a angloparlants. Anem aplegant guies per posar-les a la web de l’Aliança, recursos sobre com catalanitzar el teu entorn. També hi ha en marxa un prototip de monitoratge, un dispositiu que ens servirà per a verificar que Google fa alguna cosa i adonar-nos si la situació millora o si torna a empitjorar.

Hem parlat molt dels cercadors i de la posició web, però a l’Aliança treballeu per a resoldre més problemes del català en l’àmbit digital. A grans trets, quins són?
—Per exemple, el català no té la presència que es mereix en l’automoció. Si compres un cotxe, hauries de poder triar que els menús fossin en català. És lamentable que un cotxe fabricat a Martorell no tingui els menús en català. I també els electrodomèstics. Hi ha televisors que tenen els menús en català, però les dues marques més venudes a l’estat encara no. Després hi ha les aplicacions i les xarxes socials. La qüestió no és només que tinguin interfície en català, sinó que no paralitzin el contingut en català, com fa TripAdvisor amb els comentaris dels usuaris. Hi ha moltes aplicacions mòbils fetes a Barcelona que no tenen versió en català. És possible que els seus creadors tinguin una borratxera d’aspiracions d’audiència internacional però probablement serien ben acollides i podrien créixer més aquí. Sobre els algorismes i assistents de veu, Alexa i Google Assistant no parlen català.

També us centreu en l’audiovisual.
—La CCMA ha posat a disposició de plataformes continguts doblats. Això és un pas en la bona direcció i s’ha de complementar amb la traducció al català de les interfícies. Si navegues per Netflix en espanyol, no ets conscient que una determinada pel·lícula hi és en català. Has de poder navegar per les plataformes en català i filtrar que vols veure contingut en català. També treballem sobre els videojocs, on també hi ha molta feina per a fer. Anem agrupant recursos i estem il·lusionats pel fet que totes les entitats de l’Aliança remem en la mateixa direcció.

Recomanem

La premsa lliure no la paga el govern. La paguem els lectors.

Fes-te de VilaWeb, fem-nos lliures.

Fer-me'n subscriptor
des de 75€ l'any