19.04.2025 - 21:40
Els models de llenguatge extensos (MLE) han canviat dràsticament la indústria de les tecnologies del llenguatge. La irrupció de DeepSeek el mes de gener va fer palesa la cursa tecnològica per a dominar el sector i va posar el focus no només en l’interès per a desenvolupar models més potents, sinó també en la necessitat de fer-ho de manera més econòmica. Més enllà de totes les ramificacions geopolítiques que això comporta, aquesta cursa acaba alimentant una dinàmica que ve de fa anys: l’arraconament de la majoria de llengües a favor d’un grup reduït i, sobretot, de l’anglès.
El panorama actual és poc encoratjador. Per exemple, en l’àmbit de la traducció automàtica, Google Translate, el traductor de referència, ara com ara només ofereix 249 llengües, una quantitat ínfima si tenim en compte que se’n parlen més de sis mil a tot el món. D’aquestes 249, el biaix europeu és força evident: hi trobem el frisó, el latgalià i el manx, llengües minoritzades dels Països Baixos, Letònia i el Regne Unit, respectivament; però no el gilbertès, llengua oficial de Kiribati, o el ngambai, una de les llengües majoritàries del Txad amb més d’un milió de parlants. El biaix encara es fa més evident si tenim en compte que el traductor ofereix dues varietats de portuguès –el portuguès de Portugal i el portuguès del Brasil– i de francès –estàndard i quebequès. I és que el factor principal que determina que els parlants d’una llengua tinguin accés a tecnologies lingüístiques és el seu poder econòmic, com bé demostra aquest estudi.
Ampliar la cobertura lingüística no és pas senzill. D’una banda, tenim els algoritmes, que, com ja explicava en un article anterior, sovint assumeixen característiques lingüístiques pròpies de llengües europees, però no sempre generalitzables a unes altres llengües. De l’altra, tenim les dades, és a dir, tot el material lingüístic que es fa servir per entrenar primer i calibrar després els MLE. L’entrenament es fa, sobretot, amb dades extretes d’internet, després d’haver pentinat pàgines web, xarxes socials, etc. Deixant les qüestions d’autoria a banda, aquest procés té una mancança evident: segons les estimacions de Statista gairebé el 50% del contingut web és en anglès, seguit de l’espanyol amb un 6%. Si agafem les vint-i-cinc llengües amb més parlants com a llengua inicial, n’hi ha deu, totes parlades a l’Àsia, que no arriben ni al 0,5% de contingut en línia: el bengalí, el gujarati, l’hindi, el javanès, el marathi, el paixtu, el panjabi, el tàmil, el telugu i l’urdú. Sí que superen el llindar del 0,5%, tot i tenir molts menys parlants de mitjana, l’hongarès, el neerlandès, el polonès, el romanès, el suec, el txec i l’ucraïnès. Totes parlades a Europa.
Amb els textos extrets d’internet, doncs, no n’hi ha prou; necessitem més dades. Una alternativa són els corpus paral·lels, és a dir, col·leccions en què el mateix text s’ha traduït manualment a diverses llengües. N’és un bon exemple la Declaració Universal dels Drets Humans, que està disponible en més de cinc-centes llengües. El problema és que la declaració és un text força curt –en català no arriba ni a dues mil paraules– i amb un sol text fem poca cosa. El corpus paral·lel més gran de tots és la Bíblia, traduïda a més de mil cinc-centes llengües. Aquí el problema és una mica diferent: és un text amb un contingut allunyat de la realitat social actual i un vocabulari poc adaptat al món contemporani. A més, l’abast geogràfic és irregular i es limita als països dels quals als missioners encara no els han fet fora.
L’alternativa més viable per a compensar aquest desequilibri de material lingüístic disponible és la creació de més textos manualment, textos de bona qualitat i en més llengües. I aquí tornem a topar amb la realitat: quan es contracten treballadors fora dels països occidentals no sol ser per redactar textos en les seves llengües, sinó per anotar dades per a la calibració de models existents i, per tant, en les llengües que els models ja dominen. Aquest procés, conegut com a aprenentatge de reforç a partir de la retroalimentació humana (RLHF per les sigles en anglès) referma la dinàmica original, tot arraconant les llengües que no formen part del grup privilegiat. No és estrany, doncs, que hi hagi comunitats que reaccionin amb certa desconfiança o recança quan són contactades per a proporcionar material lingüístic en les seves llengües. I és que el mercat de dades per a la intel·ligència artificial cada cop és més vist com una nova forma de colonització moderna, en què els que hi guanyen són sempre els mateixos.
Així, doncs, el panorama per a la diversitat lingüística en el món de les tecnologies del llenguatge ha canviat poc. Els parlants que no van poder apostar per una presència en línia de les seves llengües han quedat arraconats i amb poques opcions d’atrapar les llengües que, mentrestant, han anat fent via. Tot i que es comencen a moure coses a Google i Meta, de moment s’han hagut de conformar amb iniciatives individuals o que organitzacions com ara la UNESCO puguin fer una mica de pressió. Si han tingut la sort, i la desgràcia, d’haver estat colonitzats primer per l’Església, potser tindran un text llarg per a construir alguna cosa. Al final, la tecnologia acaba creant un món digital amb les mateixes penes i les mateixes glòries.
Albert Ventayol és membre del Grup de Lingüistes per la Diversitat (GLiDi).