L’aprenentatge profund és un tema indiscutiblement candent, no sols entre acadèmics i indústria, sinó també en la societat i en els mitjans de comunicació. Les raons d’aquesta popularitat creixent són múltiples: una disponibilitat sense precedents de dades i potència de càlcul, l’aparició d’algunes metodologies innovadores, trucs tècnics menors però significatius, etc. No obstant això, és curiós que l’èxit actual i la pràctica de l’aprenentatge profund pareixen no estar correlacionats amb la comprensió més teòrica i formal d’aquest camp. A causa d’això, l’avantguarda tecnològica de l’aprenentatge profund presenta una sèrie de propietats o situacions poc intuïtives. En aquest text es ressalten algunes d’aquestes propietats poc intuïtives, i es tracta de mostrar treballs recents rellevants i de posar de relleu la necessitat de saber més sobre la matèria, ja siga mitjançant mètodes empírics o formals.

Introducció

En els últims anys, les xarxes neuronals han ressorgit de les seues cendres i han produït resultats impressionants en tasques per a les quals el rendiment dels mètodes tradicionals era sistemàticament inferior (LeCun, Bengio i Hinton, 2015). N’hi ha moltes, de raons d’aquest èxit, i continuen sent tema de debat. Per descomptat, la contribució de certes dades i components tecnològics, com la disponibilitat de volums de dades sense precedents i l’accés generalitzat a una major potència de càlcul, ha estat decisiva. No obstant això, a més d’aquests components més pràctics, podríem dir amb seguretat que un dels principals facilitadors de l’èxit actual de les xarxes neuronals ha estat la introducció d’alguns «trucs de l’ofici» menors però significatius. Alguns exemples van ser la inicialització dels pesos de les neurones mitjançant entrenament previ no supervisat, la substitució de les activacions sigmoides per unitats lineals rectificades per a alleujar el problema de la desaparició dels gradients, o l’ús sistemàtic i ampli d’arquitectures convolucionals per a abordar les traduccions reduint el nombre de pesos entrenables.

«En els últims anys, Les xarxes neuronals han ressorgit de les seues cendres i han produït resultats impressionants»

Curiosament, la majoria d’aquests trucs útils no sorgeixen d’una teoria unificada de xarxes neuronals ni de desenvolupaments matemàtics rigorosos. Al contrari, sorgeixen de la intuïció, de la investigació empírica i, en última instància, de l’assaig i error (o de cerques per força bruta). En aquest sentit, la investigació en aprenentatge profund sembla que segueix el paradigma de Wolfram d’«un nou tipus de ciència», que indica que «només podem acostar-nos al disseny òptim dels sistemes [d’aprenentatge profund] mitjançant una cerca combinatòria entre la ingent quantitat de configuracions possibles [de la xarxa]» (Wolfram, 2002). De fet, alguns investigadors han abraçat aquest mantra directament i han començat a buscar guiats parcialment per metodologies automàtiques o estructurades. Per exemple, Zoph i Le (2016) descobreixen noves configuracions de xarxa utilitzant estratègies evolutives.

Però l’avenç empíric de la disciplina no hauria d’evitar el desenvolupament de teories més formals (o prototeories) que ens permeten entendre què està ocorrent i, amb el temps, proporcionen una comprensió més holística d’aquest camp d’investigació. En particular, aquesta comprensió podria arribar gràcies a una sèrie de qüestions obertes o propietats poc intuïtives de les xarxes neuronals que desconcerten la comunitat d’investigadors (Larochelle, 2017). En la resta de l’article presentaré i intentaré explicar breument algunes d’aquestes propietats.

Les xarxes neuronals poden cometre errors absurds

Ara és ben sabut que les xarxes neuronals poden generar resultats completament inesperats a partir d’entrades amb canvis perceptivament irrellevants, coneguts habitualment com a exemples adversaris. Els humans també es poden veure desconcertats per «exemples adversaris»: tots hem vist imatges que identificàvem com una cosa (o com a part d’una cosa) i que després hem descobert que eren una altra distinta. No obstant això, la qüestió ací és que els exemples adversaris humans no es corresponen amb els de les xarxes neuronals perquè aquests últims poden ser perceptivament iguals. Szegedy et al. (2014) van mostrar que una xarxa pot classificar erròniament una imatge només aplicant-li «una certa pertorbació a penes perceptible». No sols això, també van descobrir que la mateixa pertorbació d’aquella imatge en particular provocava l’error de classificació fins i tot quan la imatge no estava en el grup d’entrenament; és a dir, quan s’havia entrenat a la xarxa amb un subconjunt d’imatges diferent. De la mateixa manera, Nguyen, Yosinski i Clune (2015) van mostrar que és possible produir imatges artificials que són completament irrecognoscibles per als humans però que, no obstant això, les xarxes neuronals profundes poden relacionar amb objectes reals amb una confiança del 99,99 %.

Llig l’article sencer al web de Mètode

Joan Serrà, investigador de Telefónica R&D a Barcelona, on treballa en qüestions relacionades amb l’aprenentatge automàtic i l’aprenentatge profund.

Què és Mètode?

Per a VilaWeb el vostre suport ho és tot

Sostenir un esforç editorial del nivell i el compromís de VilaWeb, únicament amb la publicitat, és molt difícil. Per això necessitem encara molts subscriptors nous per a allunyar qualsevol ombra de dificultats per al diari. Per a vosaltres aquest és un esforç petit, però creieu-nos quan us diem que per a nosaltres el vostre suport ho és tot.

Podeu fer-vos subscriptors de VilaWeb en aquesta pàgina.

Vicent Partal
Director de VilaWeb