xarxes neuronals traducció softcatalà

Junts podem anar molt més lluny

Fa vint-i-cinc anys que VilaWeb va començar a caminar. Ara, amb tota l'experiència acumulada, sabem que si aconseguim prou suport podem elevar la potència a 25 i fer el millor diari del món. Digital, català i en català. Ens ajudeu a fer-ho possible?

Doneu suport a VilaWeb

Aquesta setmana, Softcatalà ha estrenat un traductor automàtic anglès-català i català-anglès basat en tecnologia de xarxes neuronals. Aquest nou sistema, d’accés gratuït i amb una eficàcia similar a la de Google, és un pas endavant en la traducció en català, atès que les xarxes neuronals intenten d’imitar el procés de pensament del cervell i, per tant, fan traduccions més acurades i una mica més pròximes a la traducció d’un ésser humà.

Jordi Mas, enginyer informàtic i un dels membres fundadors de l’associació, explica que aquesta tecnologia s’aconsegueix a força d’entrenar la màquina amb exemples i dades existents, a partir d’una gran quantitat de texts que han de ser tan correctes com sigui possible. ‘Hem donat a la màquina 4,5 milions d’exemples de frases traduïdes per humans del català a l’anglès. Són tipus de texts variats: del Parlament Europeu, de Viquipèdia…’, diu. ‘La màquina agafa aquest corpus, mira d’entendre les relacions entre les diferents paraules i crea una xarxa neuronal, una mena de graf matemàtic. D’aquesta manera, cada vegada que detecta una traducció que no ha vist abans, mira com traduir-la.’

La complexitat de les xarxes neuronals significa un gran plus de qualitat en comparació amb els altres dos sistemes fets servir fins ara per la majoria de traductors automàtics, el de regles i l’estadístic. El sistema de regles, a partir de la traducció automàtica d’estructures gramaticals, és el que es fa servir normalment per traduir a llengües properes i, de fet, Softcatalà l’utilitza per traduir del català al castellà i viceversa. El problema d’aquest sistema rau en les llengües llunyanes, amb estructures molt diferents. ‘La següent generació de sistemes són els sistemes estadístics, que bàsicament requerien molt de corpus alineat i molt de procés. Això va ser un avenç, però els neuronals tenen un rendiment molt superior’, explica Mas. ‘Tenen mecanismes de memòria curta i mecanismes d’atenció i això fa, per exemple, que sàpiguen col·locar bé un topònim o un nom propi que no reconeixen.’

De fet, aquests sistemes són tan acurats que fins i tot han començat a revolucionar el món de la traducció i a canviar les tasques dels traductors i a agilitzar-les. ‘Amb aquest sistema, la traducció la fa la màquina i l’humà fa una postedició. A vegades només cal editar comes i punts’, diu Mas.

En obert i amb més avantatges que el Google Translate

Traductors com el de Google ja fan servir aquesta tecnologia, però amb serveis de pagament. Softcatalà l’ofereix en obert i per a tothom i, segons unes quantes avaluacions, amb una qualitat similar o fins i tot una mica superior a la de Google. Segons que explica Mas, això passa perquè la màquina s’ha entrenat amb texts més acurats, de més qualitat.

Un altre avantatge que té respecte d’altres traductors és que permet de traduir texts llargs sense pagar de més o sense haver d’introduir els fragments per separat. En cas de texts molt llargs, la traducció es fa per correu electrònic: ‘Volem desenvolupar la possibilitat que la gent ens enviï fitxers per traduir si són llargs. Al cap d’uns minuts arriben per mail, perquè a la web no pots fer esperar l’usuari més de vint segons i a vegades la tecnologia de xarxes neuronals triga més a traduir.’

Que Softcatalà hagi impulsat aquesta eina és rellevant també des d’un punt de vista de cura de la llengua, perquè les traduccions en català estan menys ateses en plataformes que ofereixen moltes llengües i combinacions possibles. ‘Google fa una feina ingent, perquè entrena centenars de models amb moltes combinacions: català-japonès, alemany-japonès… Així és molt difícil mantenir una bona qualitat’, explica Mas. ‘Un problema que ha tingut amb les llengües minoritzades és la manca de disponibilitat de textos perquè la màquina aprengui. Hi ha pocs corpus disponibles que estiguin ben traduïts de l’anglès a l’èuscar, per exemple. És difícil tenir una bona qualitat alemany-malai! A més, si un dia Google decideix que el català s’ha acabat, s’ha acabat.’

Col·laboració dels usuaris

El nou traductor serà en fase de proves uns quants mesos. Durant aquest període, Softcatalà recollirà els comentaris dels usuaris per continuar millorant-lo. De moment, el nou traductor conviurà amb l’actual traductor anglès-català, basat en tecnologia Apertium. Mas explica que la idea és entrenar els models del traductor neuronal cada sis mesos, per tal que siguin cada vegada més acurats, perquè, tot i que en general el traductor funciona bé, en alguns casos pot fallar.

L’entitat posa a l’abast la tecnologia que utilitza, de manera lliure i oberta, perquè tothom la pugui instal·lar, estudiar o millorar. Per a preguntes i altres qüestions, permeten d’unir-se al grup públic de Telegram Softcatalà – Diccionaris, correctors i traductors.

Fes-te'n subscriptor i construeix amb VilaWeb25 el diari nou que els Països Catalans necessiten ara.

60€/any | 18€/trimestre
120€/any | 35€/trimestre

Si no pots, o no vols, fer-te'n subscriptor, ara també ens pots ajudar fent una donació única.