Cercador intel·ligent en català

  • VilaWeb col·labora amb la Universitat de Barcelona i Thera en un projecte de recerca sobre el llenguatge natural

VilaWeb
VilaWeb

Redacció

27.02.2008 - 18:32

La premsa lliure no la paga el govern, la paguen els lectors


Fes-te de VilaWeb, fem-nos lliures

CeRes és el nom d’un projecte de recerca que treballa per fer una aplicació de cerca de respostes a bases de dades que capaç d’interpretar el llenguatge natural, o sigui, el que fem servir els humans quan parlem entre nosaltres i no la versió simplificada que utilitzem per comunicar-nos amb els ordinadors. Així doncs, es tracta d’aconseguir que la aplicació informàtica sigui capaç d’interpretar les preguntes dels humans i de donar-hi una resposta correcta.Segons Antònia Martí, investigadora de la Universitat de Barcelona i coordinadora de CeRes, el creixement continuu de la informació emmagatzemada a internet fa que cada vegada sigui més important trobar maneres ràpides i eficaces de localitzar i seleccionar dades. Per això el Centre de Llenguatge i Computació (CLiC) de la Universitat de Barcelona, l’empresa tecnològica Thera i VilaWeb col·laboren per fer avançar el projecte de recerca CeRes, únic al país. Avui, en una presentació a la jornada El català i l’Espai Europeu d’Educació Superior, han fet una presentació (a la foto) de les possibilitats de l’aplicació.

Els membres de CeRes han introduït 125.000 notícies de VilaWeb publicades entre el gener de 2003 i el maig de 2007 per provar i millorar l’aplicació. Tota la informació introduïda s’analitza amb tècniques de processament de llenguatge natural per tal de determinar quins són els elements susceptibles de ser buscats, què són (persones, llocs, dates…) i en quin context es troben. A partir d’aquesta base de dades, l’aplicació és capaç d’entendre les preguntes que s’hi escriuen, determinar si es busca un lloc, una persona, una data o una xifra i respondre-les amb un fragment de text d’alguna notícia de VilaWeb que contingui la informació desitjada. Quan busca una resposta, l’aplicació és capaç d’analitzar morfològicament 60.000 paraules per segon.

Tal i com explica Antònia Martí, ‘mentre que els cercadors com Google són fets perquè s’hi cerqui a partir de paraules clau i retornen una llista de documents que les continguin, els sistemes de cerca de respostes s’han fet per respondre preguntes concretes’. Així, per exemple, si a l’aplicació de CeRes se li pregunta ‘Qui va escriure “Aloma”?’ respon amb un fragment de text que inclou i ressalta la resposta ‘Mercè Rodoreda va escriure ”Aloma”…’

Jordi Duran, responsable de recerca de l’empresa Thera, que desenvolupa la vessant tecnològica del projecte, diu que ja fa tres anys que s’hi treballa i que han rebut l’assessorament d’experts internacionals en aquest camp, com el professor de la Universitat de Texas Dan Moldovan, del Human Language Technology Research Institute. Segons Duran, ‘si tinguéssim tots els recursos que necessitem, d’aquí a quatre o cinc anys tindríem un producte molt bo que es podria aplicar comercialment’ però els calen recursos, sobretot, per a la recerca lingüística necessària per fer que els ordinadors puguin entendre com ens expressem.

Duran i Martí coincideixen en què, de moment, CeRes aconsegueix un percentatge de respostes correctes del 71%, mentre que les aplicacions de cerca de resposta més avançades arriben al 85%. Però Antònia Martí diu que, amb l’ajuda de les proves que s’han fet amb VilaWeb, han pogut identificar alguns dels aspectes que poden ajudar a augmentar força el percentatge de respostes correctes, i que ja hi treballen.

Sigui com sigui, per Antònia Martí aquesta mena d’aplicacions són el futur immediat, es tracta d’una tecnologia que cada vegada avança més i diu que el mercat ja s’hi ha començat a interessar amb força. Per això l’aplicació de CeRes s’ha pensat perquè es pugui aplicar a qualsevol web i perquè es pugui traslladar fàcilment a qualsevol idioma o, fins i tot a més llarg termini, perquè pugui reconèixer el llenguatge oral i respondre les preguntes sense que calgui escriure-les.

Enllaços
Centre de Llenguatge i Computació de la Universitat de Barcelona.
Thera.
Més noticies: VilaWeb Tecnologia i Ciència.

Ens ajudeu a fer un plató?

Fem una gran inversió per a construir un plató televisiu i poder oferir-vos així nous formats audiovisuals de qualitat.

Gràcies per fer-ho possible.

(Pagament amb targeta o Bizum)