El projecte Aina té més d’un milió de veus enregistrades i supera els objectius marcats enguany

Des que es va posar en marxa la iniciativa, ara fa cinc mesos, disposa de 2.400 hores d'enregistrament

VilaWeb
ACN
06.07.2022 - 12:27
Actualització: 06.07.2022 - 23:17

La premsa lliure no la paga el govern, la paguen els lectors


Fes-te de VilaWeb, fem-nos lliures

El projecte Aina disposa d’1.006.000 talls de veu registrats i 2.400 hores enregistrades i ha superat així els objectius marcats per aquest any fixats en 2.000 hores, segons que ha informat aquest dimecres el Departament de la Vice-presidència i de Polítiques Digitals i Territori. El govern va llençar la campanya ‘La nostra llengua és la teva veu’ al febrer d’aquest any amb la finalitat de recollir el màxim de veus possible i nodrir de contingut la primera versió de corpus de veu (conjunt de dades) del català per ensenyar les màquines a entendre i parlar el català. A més, també es va aconseguir que el català passés a ser la segona llengua del món amb més locutors a Common Voice, tan sols per darrere l’anglès.

Per construir el corpus de veus que necessità una màquina, es requereix disposar de milions de dades de veu que incloguin la riquesa i els matisos de la llengua oral amb tots els seus registres i variants dialectals.

Per això, la Generalitat convida la ciutadania de parla catalana de totes les edats, gèneres, condicions i procedències a enregistrar la seva veu a través de la pàgina web del projecte Aina, des d’on tothom pot llegir, enregistrar i validar un nombre il·limitat de frases agrupades de cinc en cinc a Common Voice. En aquesta plataforma, que ja funcionava abans de l’inici de la campanya, hi havia 1.000 hores de gravació a les quals s’hi han afegit 1.400 hores noves des del febrer.

En aquest sentit, la validació per part de la ciutadania de frases llegides i enregistrades per altres donants és tan important com l’enregistrament de veus, ja que han de passar un procés de certificació abans de poder ser utilitzades per al projecte, segons explica el Departament de la Vice-presidència i de Polítiques Digitals i Territori.

Per ara, el perfil de veu majoritari de la plataforma és d’homes d’entre quaranta anys i cinquanta-nou que parlen el català central. Els impulsors de la iniciativa demanen que als usuaris que es registrin per a una millor classificació de les dades perquè actualment hi ha un percentatge elevat de participants de qui no es pot identificar el gènere, edat i variant dialectal (38%).

Més notícies

La premsa lliure no la paga el govern. La paguem els lectors.

Fes-te de VilaWeb, fem-nos lliures.

Fer-me'n subscriptor
des de 60€ l'any / 5€ al mes