Una investigadora de la UPC presenta als Estats Units una eina per a reconèixer els ingredients d’un plat amb fotografies

  • La investigadora de la Universitat Politècnica de Catalunya Amaia Salvador va desenvolupar l'eina durant la seva estada al Massachusetts Institute of Technology

VilaWeb
Redacció
30.07.2017 - 08:00
Actualització: 30.07.2017 - 22:58

Veure un plat acabat, fer-li una fotografia i saber automàticament quins ingredients el componen. Així de senzill. Aquesta és la idea que inspira Pic2recipe, el projecte d’investigació desenvolupat per la investigadora de la Universitat Politècnica de Catalunya Amaia Salvador durant la seva estada l’any passat al Massachusetts Institute of Technology (MIT). Fins i tot se n’han fet ressò a MIT News.

Un auditori amb més de cinc mil assistents van poder escoltar la presentació que Salvador va fer de Pic2recipe a la Conference on Computer Vision and Pattern Recognicion, un dels principals aparadors de les novetats en intel·ligència artificial que es fa cada any en un indret diferent del món patrocinat per gegants tecnològics mundials com Facebook, Google o Uber. També s’hi han presentat altres aplicacions punteres relacionades amb la diagnosi mèdica o amb la conducció automàtica d’automòbils, per exemple.

L’especialitat de Salvador és l’aprenentatge profund, una disciplina vinculada a la intel·ligència artificial que, segons que explica, permet que una màquina o un robot aprengui, a partir de grans volums de dades que avui dia podem trobar a internet, a resoldre una tasca molt millor que els humans. La investigadora, però, és pessimista sobre la possibilitat de desenvolupar projectes d’aquestes característiques a Catalunya: ‘Avui dia, les principals inversions en intel·ligència artificial es troben en països com el Canadà, la Xina o els Estats Units. Crec que perdem una oportunitat excel·lent.’ I afegeix que, si res no canvia, tant ella com els seus companys de doctorat hauran de desenvolupar les seves carreres a l’estranger.

Dins del projecte Pic2recipe, Salvador va ser l’encarregada de dissenyar un algoritme capaç d’aprendre d’una col·lecció de més d’un milió de receptes amb fotografies construïda al laboratori del professor Antonio Torralba del MIT. El projecte va rebre el finançament del Qatar Computing Research Institute (QCRI), el Fons de Desenvolupament Regional Europeu (FEDER) i de l’estat espanyol.

—Com va sorgir la idea?
—La idea de centrar el nostre projecte en l’àmbit culinari està motivada per diversos factors. Com a éssers humans, el que mengem, d’alguna manera, ens defineix. En bona part, la nostra salut depèn dels aliments que consumim. El menjar també va lligat a la nostra cultura; moltes festivitats i tradicions d’arreu del món giren al voltant de la preparació i el consum de plats específics, com per exemple els canelons de Nadal a Catalunya, o el gall d’indi pel Dia d’Acció de Gràcies —en anglès, Thanksgiving Day— als Estats Units.

—I per què una eina com aquesta?
—Des d’un punt de vista científic, en la comunitat de visió per computador, l’objectiu principal és dotar les màquines de la capacitat d’entendre el contingut de les imatges (per exemple, detectar els objectes que apareixen o entendre’n les interaccions). En aquest sentit, creiem que el domini específic d’imatges de plats culinaris presenta reptes interessants per a la nostra comunitat, ja que l’aparença dels ingredients, durant la manipulació, pot ser molt variable. Aquesta particularitat requereix solucions que siguin robustes. Per exemple, el nostre sistema ha de ser capaç de detectar un ingredient com el tomàquet independentment de la seva aparença en receptes com amanides, plats de pasta, pizzes o sucs.

—Quant heu trigat a desenvolupar el projecte?
—El projecte ja estava en marxa quan jo vaig arribar al MIT. Aproximadament, l’equip hi ha treballat durant una mica més d’un any, durant el qual les tasques que més temps han requerit han estat la recollida i l’organització de la base de dades de receptes i imatges de cuina. La meva tasca durant l’estada va estar més centrada en el desenvolupament del sistema en si, l’algoritme.

—Quines han estat les principals complicacions?
—El nostre sistema aprèn a partir de grans volums de dades, i la seva probabilitat d’encert millora proporcionalment al nombre de mostres (receptes i imatges) que utilitzem per a entrenar-lo. Per altra banda, la distribució d’ingredients de la nostra base de dades no és uniforme; un alt percentatge de les receptes són de pastes dolces (galetes, magdalenes i pastissos), mentre que disposem de poques receptes de begudes o de sushi. Per aquest motiu, el nostre sistema funciona molt millor per a receptes de pastisseria que no pas per a begudes, ja que la seva representació de begudes en la nostra base de dades és inferior. A partir d’una fotografia del plat, Pic2recipe troba la recepta correcta el 65% de les vegades.

—La idea és fer-ne un ús comercial? Quins àmbits poden estar-hi interessats?
—Per ara no tenim aquesta intenció. Considerem que el sistema actual és millorable i estem treballant en aquesta direcció. Els següents passos consistiran a dotar el nostre sistema de la capacitat de reconèixer no solament els ingredients, sinó la quantitat, el nombre de calories i més dades nutricionals a partir de la imatge del plat cuinat. D’aquesta manera, podrem presentar informació molt més detallada a l’usuari i oferir-li la possibilitat de manipular-la com vulgui; per exemple, convertir la recepta en vegana o baixa en calories.

—Què representa que se n’hagi fet ressò MIT News?
—Per a mi, és un reconeixement professional que valoro molt positivament. Al final, els mitjans de comunicació són els responsables de posar la informació sobre aquestes noves tecnologies a l’abast de tothom. Crec que aquesta tasca de divulgació és molt important per l’impacte que tenen aquestes tecnologies en les nostres vides i, sobretot, per l’impacte que tindran en el futur.

Recomanem

La premsa lliure no la paga el govern. La paguem els lectors.

Fes-te de VilaWeb, fem-nos lliures.

Fer-me'n subscriptor
des de 75€ l'any