La UPF alerta que algunes eines de IA propaguen formes no normatives del català

26.02.2026 - 10:17

Actualització: 26.02.2026 - 11:00

Un estudi de la Universitat Pompeu Fabra (UPF) avisa que unes quantes eines d’intel·ligència artificial generativa, com ara ChatGPT i Gemini, contribueixen a difondre formes no normatives del català. Segons el treball, la influència del castellà en el model d’entrenament d’aquestes eines n’és una de les principals causes. Els resultats, publicats en català a la revista Linguamática, representen un toc d’alerta per als responsables de política lingüística. El grup d’investigació ha demanat que s’avaluï aquest fenomen i l’impacte que aquestes tecnologies poden tenir en el futur de la llengua, per tal de poder prendre decisions informades.

La IA parla en llengua catalana, però pensa realment en català?

Thomas Brochhagen, coautor de l’estudi, subratlla que els resultats “mostren la importància de verificar les preferències lingüístiques dels models de llenguatge, especialment en llengües minoritàries, per a poder fer aquest debat de manera informada, elaborar polítiques lingüístiques que tinguin en compte l’impacte de les noves tecnologies i actuar en conseqüència”.

Models de llenguatge esbiaixats

L’estudi explica que els models lingüístics d’aquestes eines de IA generativa presenten biaixos, atès que tendeixen a afavorir estructures gramaticals i lèxic de les llengües més parlades, com per exemple l’anglès i el castellà, que han servit de base per a l’entrenament. Treballs anteriors ja havien constatat la preferència per les estructures angleses, però aquesta recerca de la UPF ha estat pionera a demostrar un biaix cap al castellà.

Mireia Almena, investigadora de la UPF i coautora de l’article, assegura que aquests models de IA “no sols reprodueixen el llenguatge, sinó que també poden influir en l’evolució, sobretot en llengües com ara el català, amb menys volum de continguts escrits en mitjans digitals”.

Sis models de llenguatge estudiats

Els investigadors han analitzat sis models de llenguatge extensos semblants als que fan servir les eines de IA generativa més representatives, com ara ChatGPT i Gemini. D’aquests, quatre són multilingües i dos, monolingües especialitzats en català. Tanmateix, fins i tot els monolingües han estat entrenats en unes altres llengües, sigui en fases inicials del desenvolupament o de manera involuntària, perquè no s’han pogut filtrar del tot els bancs de dades dels quals aprenen.

Els investigadors han examinat les preferències dels sis models en formes normatives i no normatives del català, mitjançant un corpus d’avaluació de 160 oracions relacionades amb vuit estructures gramaticals que sovint originen dubtes en l’ús de la preposició adequada.

Moltes d’aquestes oracions poden desenvolupar usos no normatius del català per influència del castellà, per exemple quant a l’ús o no de la preposició davant d’objecte directe. Algunes altres estructures poden suscitar usos no normatius per raons alienes al castellà, com ara utilitzar incorrectament la preposició “de” en lloc de “a”.

Biaix clar en els models multilingües

La recerca indica que, quan cal triar entre una preposició normativa o no normativa, les IA multilingües s’equivoquen en un 55% dels casos per influència del castellà i només en un 4% per uns altres motius.

Els resultats també mostren que els models multilingües són els que utilitzen més formes no normatives del català per influència del castellà: la probabilitat que s’allunyin del català normatiu per aquesta raó és del 55% i en els models monolingües, del 27%. Quant a la probabilitat mitjana de fer un ús no normatiu en català per unes altres raons, els models monolingües i multilingües són semblants i, en tots dos casos, s’acosten al 4%.

Consentiment de dades
Us informem que les dades de caràcter personal que ens proporcioneu seran tractades per Partal Maresma i Associats S.L. com a responsable del tractament. A Partal, Maresma i Associats, S.L. utilitzem la informació que ens faciliteu per enviar-vos els butlletins d'informació de VilaWeb i de les activitats que organitzi aquest diari, sobre la base del consentiment que ens proporcioneu marcant la casella anterior. No es preveuen cessions a tercers ni transferències a tercers països. Podreu exercir els vostres drets d'accés, rectificació i limitació i suprimir les dades a l'adreça electrònica dades@vilaweb.cat, com també el dret de presentar una reclamació davant una autoritat de control. Podeu consultar la informació addicional i detallada sobre protecció de dades a la nostra política de privadesa
We use Mailchimp as our marketing platform. By clicking below to subscribe, you acknowledge that your information will be transferred to Mailchimp for processing. Learn more about Mailchimp's privacy practices here.

La UPF alerta que algunes eines de IA propaguen formes no normatives del català

Un estudi destaca la influència del castellà en els models emprats per ChatGPT i Gemini i demana de revisar l’impacte d’aquestes tecnologies en la llengua

Recomanem

Josep Nualart: “El monstre judicial s’ha regirat contra Pedro Sánchez i ara el vol devorar”

Albert Velasco: “Amb Sixena ens hem comportat com uns absoluts porucs”

L’atac iranià a Diego Garcia alarma Europa i canvia el sentit de la guerra

El català finalment arriba als cotxes, impulsat per les marques xineses

De dependenta a mestressa, Anna Campos salva la pastisseria més antiga de Barcelona

El president de la DO Cava encobreix Freixenet i parla de la sequera tan sols, per justificar el descens de les vendes

Albert Casals: “Criar en tribu és la millor manera imaginable de fer-ho”

Oriol Mitjà: “He passat per moltes depressions”

Revés a Meloni: no contundent a la seva reforma judicial

L’ex-directora de la residència de Paiporta confirma que el 29 d’octubre no van rebre cap avís de la conselleria

El govern planta els sindicats d’educació crítics: Illa i Dalmau refusen la reunió de demà

Trump insisteix que negocia amb l’Iran, però diu que l’interlocutor no és Khamenei

Els mercats reaccionen amb eufòria a la treva temporal entre els EUA i l’Iran