La UPF alerta que algunes eines de IA propaguen formes no normatives del català

  • Un estudi destaca la influència del castellà en els models emprats per ChatGPT i Gemini i demana de revisar l’impacte d’aquestes tecnologies en la llengua

VilaWeb
26.02.2026 - 10:17
Actualització: 26.02.2026 - 11:00

Un estudi de la Universitat Pompeu Fabra (UPF) avisa que unes quantes eines d’intel·ligència artificial generativa, com ara ChatGPT i Gemini, contribueixen a difondre formes no normatives del català. Segons el treball, la influència del castellà en el model d’entrenament d’aquestes eines n’és una de les principals causes. Els resultats, publicats en català a la revista Linguamática, representen un toc d’alerta per als responsables de política lingüística. El grup d’investigació ha demanat que s’avaluï aquest fenomen i l’impacte que aquestes tecnologies poden tenir en el futur de la llengua, per tal de poder prendre decisions informades.

Thomas Brochhagen, coautor de l’estudi, subratlla que els resultats “mostren la importància de verificar les preferències lingüístiques dels models de llenguatge, especialment en llengües minoritàries, per a poder fer aquest debat de manera informada, elaborar polítiques lingüístiques que tinguin en compte l’impacte de les noves tecnologies i actuar en conseqüència”.

Models de llenguatge esbiaixats

L’estudi explica que els models lingüístics d’aquestes eines de IA generativa presenten biaixos, atès que tendeixen a afavorir estructures gramaticals i lèxic de les llengües més parlades, com per exemple l’anglès i el castellà, que han servit de base per a l’entrenament. Treballs anteriors ja havien constatat la preferència per les estructures angleses, però aquesta recerca de la UPF ha estat pionera a demostrar un biaix cap al castellà.

Mireia Almena, investigadora de la UPF i coautora de l’article, assegura que aquests models de IA “no sols reprodueixen el llenguatge, sinó que també poden influir en l’evolució, sobretot en llengües com ara el català, amb menys volum de continguts escrits en mitjans digitals”.

Sis models de llenguatge estudiats

Els investigadors han analitzat sis models de llenguatge extensos semblants als que fan servir les eines de IA generativa més representatives, com ara ChatGPT i Gemini. D’aquests, quatre són multilingües i dos, monolingües especialitzats en català. Tanmateix, fins i tot els monolingües han estat entrenats en unes altres llengües, sigui en fases inicials del desenvolupament o de manera involuntària, perquè no s’han pogut filtrar del tot els bancs de dades dels quals aprenen.

Els investigadors han examinat les preferències dels sis models en formes normatives i no normatives del català, mitjançant un corpus d’avaluació de 160 oracions relacionades amb vuit estructures gramaticals que sovint originen dubtes en l’ús de la preposició adequada.

Moltes d’aquestes oracions poden desenvolupar usos no normatius del català per influència del castellà, per exemple quant a l’ús o no de la preposició davant d’objecte directe. Algunes altres estructures poden suscitar usos no normatius per raons alienes al castellà, com ara utilitzar incorrectament la preposició “de” en lloc de “a”.

Biaix clar en els models multilingües

La recerca indica que, quan cal triar entre una preposició normativa o no normativa, les IA multilingües s’equivoquen en un 55% dels casos per influència del castellà i només en un 4% per uns altres motius.

Els resultats també mostren que els models multilingües són els que utilitzen més formes no normatives del català per influència del castellà: la probabilitat que s’allunyin del català normatiu per aquesta raó és del 55% i en els models monolingües, del 27%. Quant a la probabilitat mitjana de fer un ús no normatiu en català per unes altres raons, els models monolingües i multilingües són semblants i, en tots dos casos, s’acosten al 4%.

Recomanem

Fer-me'n subscriptor