El govern fa una crida a donar la veu al projecte Aina per a crear el primer diccionari de veu en català

  • Puigneró demana d'aconseguir milions de mostres perquè les màquines entenguin la llengua catalana

VilaWeb
ACN
04.04.2022 - 11:05
Actualització: 04.04.2022 - 13:05

El govern destinarà 3 milions d’euros a una nova fase del projecte Aina, que cerca que les màquines entenguin i parlin en català constituint un corpus massiu de dades, en col·laboració amb el Barcelona Super Computing Center (BSC). Després d’haver desenvolupat un corpus de text de més de 1.770 milions de paraules reunides en 95 milions de frases, ara el projecte buscar crear un diccionari de milions de veus del català. Demà el Departament de Polítiques Digitals llançarà una campanya per a aconseguir la màxima participació dels parlants de la llengua, buscant la diversitat de variants, edats, gèneres o orígens per tal d’aconseguir duplicar la base de dades actual de veu en català, que és de 1.000 hores.

El corpus de veu en català es nodrirà dels continguts obtinguts a través de la plataforma de Common Voice de Mozilla, on tothom que ho vulgui podrà llegir i enregistrar un nombre il·limitat de frases per a ajudar una intel·ligència artificial a aprendre com parlen les persones.

De moment, el perfil de veu majoritari a la plataforma de Mozilla és la d’homes d’entre 30 i 50 anys parlants de català central. Per això, la campanya La nostra llengua és la teva veu convida a gent de totes les edats, gèneres i procedències a donar la seva veu. També es faran servir els arxius documentals de la Corporació Catalana de Mitjans Audiovisuals (CCMA) o el Consell de l’Audiovisual de Catalunya (CAC).

En paral·lel, el projecte es marca també com a objectiu d’enguany la creació de la segona versió del corpus de text del català, que compta amb 1.770 milions de paraules recollides en 95 milions de frases. A partir d’ara, es treballarà per recollir tots els matisos de la llengua escrita, siguin variants dialectals o registres lingüístics, com ara el col·loquial, el literari o l’administratiu.

“Ja tenim l’esquelet. Ara el que hem de construir és la seva musculatura amb la campanya de recollida de veus, de parelles lingüístiques, amb una web que permetrà que qualsevol persona pugui ajudar AINA a aprendre el català”, ha dit el vice-president del govern i conseller de Polítiques Digitals, Jordi Puigneró.

Recomanem

La premsa lliure no la paga el govern. La paguem els lectors.

Fes-te de VilaWeb, fem-nos lliures.

Fer-me'n subscriptor
des de 75€ l'any