Sobre el ‘big data’

VilaWeb
'Selfie del microbioma', de François-Joseph Lapointe, després d’encaixar 350 mans durant la seua performance '1.000 encaixades'. / Crèdit: François-Joseph Lapointe, Université de Montréal. Attribution 4.0 International (CC BY 4.0)
Fulvio Mazzocchi
28.04.2020 - 05:15

Segons alguns experts (per exemple, Anderson, 2008), el mètode científic basat en hipòtesis no té futur. Hi ha qui ha proclamat la «fi de la teoria», indicant que estem en el punt de partida d’una nova etapa en la investigació científica, una etapa basada en petabytes d’informació i en les supercomputadores. El futur pertany a una nova forma d’empirisme basada en la tecnologia i les seues potents eines, incloent-hi algorismes i tècniques estadístiques molt perfeccionats. Aquestes eines són capaces de recercar en enormes quantitats de dades i recopilar informació que es puga transformar en coneixement.

Els partidaris de les dades massives defensen que aquest enfocament és revolucionari i apunten principalment dues innovacions clau. La primera és que és possible extraure patrons significatius a partir de l’anàlisi de dades. Aquests patrons s’originen directament en les dades. A conseqüència d’això, es postula un caire ateòric segons el qual no seria necessari plantejar hipòtesis, teories ni models previs. En segon lloc, en el regne de les dades massives, «la correlació és suficient» (Anderson, 2008), i no és necessari investigar els vincles causals entre variables associades. Per tant, la correlació substitueix la causalitat. 

El cert és que l’arribada de les dades massives comporta vertaderes novetats de tipus tecnològic. Aquestes no es caracteritzen només pel seu volum, velocitat i varietat, sinó també pel seu abast exhaustiu i resolució detallada, i per ser molt relacionals, a més de flexibles i escalables en producció (Kitchin, 2014). Les tècniques d’aprenentatge automàtic poden extraure dades i detectar regularitats sota el supòsit que «molt del que es genera no respon a cap pregunta en particular o és un subproducte d’una altra activitat» (Kitchin, 2014, p. 2). Utilitzant un enfocament col·lectiu, es poden aplicar diversos algorismes als conjunts de dades amb l’objectiu d’optimitzar-ne el rendiment predictiu. El que s’afirma en aquest cas és que està sorgint «un enfocament epistemològic totalment nou per a donar sentit al món». De fet, «en lloc de provar una teoria analitzant dades rellevants, les noves anàlisis de dades tracten d’obtenir informació “que naix en les dades”» (Kitchin, 2014, p. 2).

No hi ha dubte que l’enfocament de dades massives està contribuint a canviar el panorama epistèmic actual. A més, les tècniques de mineria de dades també estan creant noves oportunitats per a la investigació científica. Per exemple, existeix la possibilitat de comparar centenars de genomes del càncer i, gràcies a la seqüenciació d’ADN, establir la freqüència de moltes mutacions potencialment significatives per a diferents tipus de càncer, juntament amb les seues conseqüències funcionals: això pot fins i tot contribuir al desenvolupament de noves teràpies (Golub, 2010). En termes més generals, mitjançant aquestes tècniques és possible descobrir patrons potencialment significatius en grans volums de dades, alguns dels quals haurien passat desapercebuts anteriorment a causa de la seua complexitat.

No obstant això, suposar que les dades massives representen un vertader canvi de paradigma epistemològic (almenys en el sentit que indicàvem anteriorment) és una qüestió completament diferent. De fet, no hi ha raó per a pensar que les dades massives permeten crear una nova manera de producció de coneixement en la qual els supòsits teòrics i les hipòtesis no complisquen cap paper i es puga ignorar la idea de causalitat.

Totes dues afirmacions sobre les dades massives han despertat fortes reaccions. Per exemple, atenent tant la generació com l’anàlisi de dades, observem que difícilment podem trobar una manera de crear coneixement sense necessitat de formular hipòtesis (és a dir, una manera que depenga únicament de la manipulació estadística i la inducció).

En primer lloc, les dades no sorgeixen del no-res. La filosofia de la ciència del segle XXI ha discutit extensament el paper que representen les no­cions preconcebudes, començant per Karl Popper (1959, per exemple). En la seua opinió, les hipòtesis compleixen un paper essencial en la investigació científica, ja que ens indiquen què buscar i quines dades recopilar. Un altre argument conegut és la «saturació teòrica» de les dades i l’observació, és a dir, el fet que aquestes estiguen «contaminades» per presumpcions teòriques.

En realitat, la naturalesa no s’investiga a l’atzar. El que s’arriba a inspeccionar i mesurar està influït pel coneixement de fons, els interessos i les estratègies de l’investigador. Fins i tot el disseny d’experiments depèn de limitacions teòriques, metodològiques i tècniques específiques. Per tant, les dades sempre són el resultat de la interacció entre l’investigador (que pertany a una determinada escola de pensament) i el món, sempre que es complisquen les condicions materials adequades (Leonelli, 2015; Mazzocchi, 2015).

En segon lloc, les dades o les xifres no parlen per si mateixes. S’hi poden trobar regularitats significatives mitjançant computadores, però la qüestió és trobar-los una explicació. Això pressuposa l’existència d’un «marc d’anàlisi», una lent teòrica de la qual depèn com s’interpreten les dades: és ací on el paper del coneixement específic de domini resulta crucial. Boyd i Crawford (2012, p. 667) van indicar que «tots els investigadors són intèrprets de dades […]. Un model pot ser sòlid en termes matemàtics, un experiment pot semblar vàlid, però el procés d’interpretació comença així que l’investigador intenta entendre el que significa».

Diversos científics de dades, així com molts bioinformàtics en la disciplina de la biologia, pensen que entendre les estadístiques pot ser suficient per a donar sentit a les dades. Es pressuposa que els patrons són significatius per si mateixos, és a dir, que el seu significat transcendeix el context o domini, i no és necessari buscar fora de les dades. En la seua opinió, el coneixement teòric «depèn de generalitzacions reduccionistes que s’abstrauen de la realitat de manera problemàtica» (Chandler, 2015, p. 847). Per contra, l’enfocament computacional ens permetria accedir a conjunts de dades interconnectades i aconseguir una comprensió més holística –més enllà dels obstacles disciplinaris– de fenòmens complexos. No obstant això, és una mica paradoxal esperar que les dades, que s’han produït en un context concret (per exemple, la biologia), es puguen interpretar fàcilment exemptes de qualsevol context. Permeteu-me subratllar de nou aquest concepte: els coneixements específics de domini són importants.

A més, fins i tot els algorismes d’aprenentatge automàtic estan impregnats de suposicions particulars, com per exemple, què considerem un patró regular: cada algorisme té la seua pròpia manera de desenvolupar estratègies per a trobar relacions entre els conjunts de dades, i és probable que diferents algorismes troben diferents tipus de patrons (Hales, 2013). Això ho reconeixen fins i tot alguns especialistes en dades massives.

La segona afirmació –la idea que «la correlació és suficient»– exagera el valor de les prediccions realitzades a partir de correlacions. Potser hi ha circumstàncies particulars, com la publicitat, en les quals aquesta idea podria tenir sentit. No obstant això, probablement no és cert en el cas de la investigació científica.

Llig l’article complet en la web de Mètode.

Fulvio Mazzocchi. Biòleg i filòsof. Investigador de l’Institut de Ciències del Patrimoni del CNR (Roma, Itàlia). La seua activitat d’investigació se centra en l’epistemologia (pluralisme epistèmic, perspectivisme), els problemes filosòfics de la investigació científica (com el debat reduccionisme-holisme en la biologia, la validació de models climàtics o els problemes epistemològics de les dades massives) i l’organització del coneixement.

Què és Mètode?

Recomanem

La premsa lliure no la paga el govern. La paguem els lectors.

Fes-te de VilaWeb, fem-nos lliures.

Fer-me'n subscriptor
des de 75€ l'any