19.05.2026 - 21:40
Segurament una de les arbitrarietats més grans que trobem en les llengües són els sistemes d’escriptura. La llengua escrita no deixa de ser un intent més o menys exitós de representar la llengua oral perquè perduri en el temps, amb una forta càrrega simbòlica i cultural, això sí. Penseu, si no, en les protestes que va originar l’eliminació de la majoria d’accents diacrítics del català ara fa una dècada. Aquest intent de captar l’oralitat es pot fer de moltes maneres, ja que la llengua en si mateixa és independent de com la vulguem representar per escrit. I de sistemes d’escriptura n’hi ha per triar i remenar. De fet, hi ha un grapat de llengües que n’han fet servir més d’un al llarg de la història. I no cal que anem gaire lluny en el temps. L’octubre del 2017 el govern del Casaquistan va decidir d’abandonar el ciríl·lic i passar a fer servir l’alfabet llatí, una decisió polèmica en què es barreja llengua, política i identitat. Tot i aquesta aparent arbitrarietat, hi ha un àmbit que se’n veu afectat, i molt: la tecnologia.
En el món de la intel·ligència artificial i els models de llenguatge extensos (MLE) domina l’anglès, i de retruc, l’alfabet llatí. El multilingüisme dels models ens pot fer semblar que dominen un piló de llengües i, per tant, les escriuen correctament en l’alfabet corresponent. Però les realitats lingüístiques són sempre més complexes que els escenaris que pot haver vist una màquina durant l’entrenament. Un usuari del Marroc, per exemple, es pot trobar fàcilment que, per a algunes tasques, el text generat pels MLE acabi barrejant sistemes d’escriptura diferents si hi apareixen àrab marroquí i manlleus del francès. Una decisió que a vegades pot estar justificada, però no sempre.
Part d’aquest multilingüisme s’assoleix gràcies a l’anomenat aprenentatge per transferència interlingüística (o cross-lingual transfer learning en anglès). La premissa és que dues o més llengües emparentades comparteixen més trets lingüístics que dues que no ho estan. Com més properes siguin lingüísticament, més trets compartiran. I si d’una en tenim moltes més dades que d’una altra, podem fer servir el coneixement implícit de la primera per millorar el rendiment de la segona. En la pràctica, això vol dir que perquè un model generi i processi text en aranès, per exemple, podem aprofitar les abstraccions generades amb dades de francès, italià i romanès (llengües totes romàniques), i fins i tot d’anglès o polonès (parentes indoeuropees més llunyanes), però, en canvi, el finès i l’hongarès ens serviran de ben poc (totes dues llengües uràliques i, per tant, molt més diferents estructuralment). A la pràctica, però, ens trobem que la transferència interlingüística topa amb la realitat alfabètica. I és que la transferència és més baixa entre llengües lingüísticament molt properes però que s’escriuen en alfabets diferents, com ara l’urdú i l’hindi, escrites en l’alfabet persa i devanagari respectivament, que no pas entre llengües més allunyades però que comparteixen alfabet, com ara l’anglès i el castellà.
Això passa perquè el processament de les dades lingüístiques per als MLE es basa en la paraula escrita, en què l’alfabet és una qüestió superficial però no lingüísticament determinant. Té sentit d’entrada: molts textos escrits estan digitalitzats i segueixen convencions ortogràfiques que els fa més fàcils de processar; identificar una paraula és més fàcil en el registre escrit que no pas en l’oral, en què els sons s’enganxen d’una paraula a la següent. El problema és que a l’hora de calcular la similitud entre paraules, un càlcul fonamental dins la infrastructura dels MLE, les llengües que no fan servir el mateix alfabet acaben més allunyades dins l’espai de representació, i això en fa més difícil la transferència interlingüística encara que en termes de parentiu siguin molt properes. A més, el temps de resposta i el nombre de segments (o tokens) en general és més alt per al processament de llengües que no s’escriuen en l’alfabet llatí, un fet per al qual s’ha encunyat el terme “impost del sistema d’escriptura”.
A l’hora d’estendre models pre-entrenats a noves llengües, doncs, aquesta dinàmica fa que el sistema d’escriptura acabi essent tan determinant o més que la família lingüística mateixa. I això acaba creant una doble minorització per a les llengües que en tenen un de propi o que el comparteixen amb molt poques llengües. A l’Àsia hi trobem força exemples: el leptxa a l’Índia, el rohinya a Myanmar, el txam al Vietnam o el yi a la Xina. A llarg termini, la falta de suport digital pot acabar augmentant la pressió perquè els parlants abandonin el sistema d’escriptura propi i n’adoptin un que facin servir més llengües. I, per anar bé, el de l’anglès.
Així doncs, la manera com representem visualment les llengües, per molt arbitrària que sigui, acaba repercutint en tot d’àmbits més enllà del simbòlic. Mentre la paraula escrita prevalgui en el desenvolupament de models, el rendiment continuarà essent desigual i les llengües fora del nostre continent amb sistemes de representació pròpies tindran més tanques per saltar en una cursa tecnològica en què als capdavanters cada cop se’ls pot atrapar menys. Potser al Casaquistan ja s’ho van veure a venir, i van decidir tirar pel dret mentre encara podien.
Albert Ventayol Boada, membre del GLiDi.