Glòria i honor a Softcatalà

  • Importantíssim salt endavant en la transcripció d'àudio a text en català

Andreu Barnils
22.04.2023 - 21:50
Actualització: 24.04.2023 - 18:38
VilaWeb
Jordi Mas, fundador de Softcatalà, en una imatge d'arxiu (fotografia: Albert Salamé).

Avui, dia de Sant Jordi, dia de roses i de llibres, dedico aquest article a Softcatalà, per la feina tan eficaç de potenciar la llengua catalana. Glòria i honor a aquesta gent que sense fer soroll, ni posar-se medalles, fa una feina increïble que facilita la feina de milers de persones, i dic milers. Han traduït al català navegadors com Firefox, paquets informàtics com LibreOffice, i posen a l’abast eines tan útils com el corrector de català, una eina que fem servir tots els periodistes de VilaWeb abans de lliurar els textos als correctors del diari perquè els revisin i hi donin el vist-i-plau final. Aquest corrector de textos de Softcatalà ja va marcar un abans i un després (dóna per exemple versions valencianes i balears), però si avui els dedico l’article és per l’increïble salt endavant que han fet amb el nou servei de transcripció d’àudio a text. Un servei gratuït, com tot allò que fan.

Mare de Déu Sinyor.

Amb aquest nou servei, envies un arxiu d’àudio des d’aquesta pàgina, i el reps transcrit al cap de vint minuts o trenta o un parell d’hores (depèn de la feina) via correu electrònic. Jo ja fa dies que els envio els arxius d’àudio de les entrevistes que faig, sense anar més lluny la d’ahir amb Joel Joan. Després he de polir i editar el text, cert. Feina encara n’hi tinc. Cert. Però cap, i dic cap, dels transcriptors que havia provat fins ara no s’hi pot comparar. La fidelitat és altíssima. Un exemple de transcripció rebuda, amb un sol error:

“Aquest és el dilema. Exacte. Aquest és el dilema dels llops quan veuen que hi ha una via de supervivència, que és la submissió i el de treballar conjuntament amb l’home per sempre amb el poder de l’home. Com es devenen carronyers, en primer lloc, i aquest és el dilema. És a dir, a partir d’ara, molt bé, potser sobrevivim, potser tenim menjar i ossos per rosegar, que al mig de la neu i del gel no hi són, però quin és el preu d’això?”

En aquest paràgraf he hagut de polir “es devenen” i passar-ho a “esdevenen”. Punt.

La feina de transcriure és monòtona, repetitiva i pot ser cansada. Hi ha gent com jo que fem dues entrevistes o tres la setmana i això vol dir que hem de passar transcrivint àudios d’una hora i mitja a quatre la setmana, i això són moltes hores (jo hi estic de mitjana el doble: una hora d’entrevista em costa dues hores de transcriure, i això anant bé). Som molts els qui feia anys, i dic anys, que buscàvem un servei com aquest. Ara l’hem trobat, gràcies a la feina de Softcatalà, i concretament als tres implicats en el projecte: Jordi Mas, Ciaran O’Reilly i Miquel Piulats.

“La transcripció, la fem amb Intel·ligència Artificial d’Open IA. El Whisper és una gran eina, que ja reconeix el català i et fa grans transcripcions. Passa que es necessiten ordinadors molt potents i certs coneixements per a fer-los servir. Nosaltres oferim els nostres servidors i fem accessible a tothom aquest servei. N’hi ha prou d’enviar-nos un correu amb l’àudio. No et cal un ordinador potent, ni coneixements –em diu Jordi Mas, fundador de Softcatalà–. Hi vam treballar sis mesos a enllestir aquest servei, que també és pensat per a gent que necessita subtítols, com els joves de Tik-tok, però hem vist que sobretot el feu servir periodistes i estudiants amb les entrevistes.”

A Softcatalà, fundat el 1997, hi ha una trentena d’experts que treballen de manera voluntària –la meitat són valencians. No hi ha alliberats. Han arribat a un acord amb les universitat de Lleida i d’Alacant que els allotgen els servidors. No accepten subvencions públiques per a mantenir-se independents, com explicava el fundador Jordi Mas a Martí Crespo en aquesta entrevista del 2018 , però és que tampoc no accepten donacions, i us ben juro que de grat jo els pagaria diners cada any per la feina que fan. Una feina amb xifres que impressionen: gairebé cent milions de visites a la seva pàgina web l’any 2022. Poca broma. “De moment, aquest servei de transcripcions té una mitjana de cinquanta-seixanta peticions cada dia”, diu Mas.

Com a mínim, que tinguin aquest humil agraïment d’un usuari feliç, convençut que el seu nou servei no solament servirà a periodistes i estudiants que han de transcriure entrevistes, sinó també a escriptors. Alguns escriptors segur que també entrevisten gent per a fer els seus llibres, ja sia per a captar termes d’argot, locucions, o mots de vells oficis, dels vells del poble o noves paraules de hip-hop urbà. I ves que en futurs dies de Sant Jordi no comprem llibres en part transcrits gràcies a Softcatalà.

Us proposem un tracte just

Esperàveu topar, com fan tants diaris, amb un mur de pagament que no us deixés llegir aquest article? No és l’estil de VilaWeb.

La nostra missió és ajudar a crear una societat més informada i per això tota la nostra informació ha de ser accessible a tothom.

Això té una contrapartida, que és que necessitem que els lectors ens ajudeu fent-vos-en subscriptors.

Si us en feu, els vostres diners els transformarem en articles, dossiers, opinions, reportatges o entrevistes i aconseguirem que siguin a l’abast de tothom.

I tots hi sortirem guanyant.

per 75 € l'any

Si no pots, o no vols, fer-te'n subscriptor, ara també ens pots ajudar fent una donació única.

Si ets subscriptor de VilaWeb no hauries de veure ni aquest anunci ni cap. T’expliquem com fer-ho

Recomanem