La falta de reproductibilitat de la investigació

L'estadística com a legitimació del resultat

VilaWeb
Scott D. Goddard Valen E. Johnson
20.10.2015 - 04:13

La premsa lliure no la paga el govern, la paguen els lectors


Fes-te de VilaWeb, fem-nos lliures

Poques persones racionals acceptarien els resultats d’una investigació científica si els intents posteriors de validar aquests resultats han fracassat. Llavors, què li passaria al bon nom de la ciència si es descobrira que les troballes de molts estudis prestigiosos no són replicables? Potser anem camí de descobrir-ho. Per una casualitat extensament divulgada, dues firmes farmacèutiques van anunciar recentment que només havien pogut reproduir per complet els resultats revisats i publicats d’una petita fracció d’estudis: entre un 20 i un 25% en el cas d’una de les empreses (Prinz et al., 2011) i un 11% en el cas de l’altra (Begley i Ellis, 2012). La majoria d’aquests estudis provaven l’eficàcia de tractaments contra el càncer, un camp en què se sap que l’índex de fracàs de les proves clíniques és alt. Però aquests resultats no són únics en absolut. Els investigadors d’altres camps científics han observat l’escassetat de resultats experimentals reproduïbles (vegeu Hirschhorn et al., 2002, per exemple).

Ens fem eco del sentiment expressat en un altre article: «Quan es fan afirmacions aparentment inversemblants amb mètodes convencionals, és un moment ideal per a reexaminar els dits mètodes.» (Rouder i Morey, 2011). Podríem començar un examen d’aquesta mena amb els mètodes estadístics convencio­nals. Encara que no s’ha difós molt fora de la literatura estadística, hi ha una creixent quantitat de proves que suggereixen que els tests d’hipòtesis clàssiques, tal com s’usen normalment, tendeixen a exagerar la solidesa de les tendències estadístiques (Edwards et al. 1963; Berger i Sellke, 1987; Johnson, 2013a, 2013b). Com a conseqüència, les mateixes pràctiques que usen els científics per a analitzar les seues dades són al seu torn causa de la falta de reproductibilitat de la recerca científica.

Arribar a conclusions errònies

El problema associat a les proves clàssiques es pot il·lustrar amb un exemple senzill. Imaginem que sabem que la malaltia W mata 2 de cada 3 pacients que la contrauen. Suposem que un fàrmac experimental (A) promet millorar la taxa de supervivència. Si els investigadors realitzen un estudi clínic, administrant A a 16 pacients, i 9 dels quals sobreviuen, com podem concloure si el fàrmac és eficaç o no? Si no és eficaç, es pot esperar que al voltant d’un terç dels 16 (posem-ne 5) pacients sobrevisqueren. 9 pacients són «aproximadament» 5 pacients? O es diferencia prou de 5 com per justificar l’afirmació que els resultats de la prova són «significatius», és a dir, que el fàrmac A és efectiu?

El mètode convencional per a respondre aquesta pregunta és realitzar un test d’hipòtesis unilaterals, en el qual contrastem una hipòtesi nul·la davant la seua hipòtesi alternativa. Diguem que p indica la taxa de supervivència de la població després del tractament amb el fàrmac A, siga la que siga. La hipòtesi nul·la (H0) indica que p és menor o igual a 1/3, la qual cosa significa que el medicament no és eficaç. La hipòtesi alternativa (H1) afirma que p és major que 1/3, la qual cosa significa que A hi ajuda, en certa manera.

En la pràctica estadística estàndard, la hipòtesi nul·la es rebutja en favor de la hipòtesi alternativa si el p-valor de l’experiment és menor que 0,05, on el p-valor es defineix com la probabilitat (si H0 és certa) d’arreplegar dades almenys tan extremes com les observades. Per tant, 0,05 (el que es coneix com «grandària» de la prova) és un llindar que divideix els p-valors que rebutgen H0 d’aquells que no ho fan. En la prova del fàrmac, 9 de cada 16 pacients van sobreviure a la malaltia després del tractament amb A. El p-valor, la probabilitat d’observar 9 o més supervivents d’entre 16 pacients, si p és 1/3, pot calcular-se simplement usant teoria de probabilitat. Resulta ser lleugerament menor que 0,05. Així, en una prova amb grandària 0,05 podem rebutjar la hipòtesi nul·la i concloure que el fàrmac és eficaç.

Edu Bayer/SINC | La ciència es basa en la reproductibilitat dels seus resultats. En la imatge, pacient durant la realització d'un assaig clínic.
Edu Bayer/SINC | La ciència es basa en la reproductibilitat dels seus resultats. En la imatge, pacient durant la realització d’un assaig clínic.

El problema en aquest cas, respecte als falsos descobriments i la falta de reproductibilitat, és que és més probable del que sembla que hàgem arribat a una conclusió incorrecta. Encara que alguns opinen el contrari, un p-valor de 0,05 no significa que la probabilitat que la hipòtesi nul·la siga vertadera és 0,05 (una interessant discussió al respecte es pot trobar en Sellke et al., 2001). De fet, si suposem que el nou medicament tenia la mateixa probabilitat de ser eficaç com de no ser-ho, llavors la probabilitat a favor de la hipòtesi nul·la és com a mínim de 0,15. Una xifra preocupantment alta tenint en compte que acabem de rebutjar-la! Aquest és el principal problema dels tests d’hipòtesis clàssiques: el p-valor, en comparació amb un llindar de 0,05, pot ser prou petit per rebutjar la hipòtesi nul·la (és a dir, que el medicament no és eficaç), però així i tot pot tenir una probabilitat relativament alta de ser cert. Que els científics (que disciplines científiques senceres, de fet) continuen utilitzant un llindar tan alt, mentre que rares vegades informen de la probabilitat que la hipòtesi nul·la siga vertadera, obre una bretxa en la defensa del rigor estadístic que permet que tot d’afirmacions errònies es colen en l’àmbit sagrat de les dades científiques.

Llig l’article sencer a la web de Mètode.

Scott D. Goddard. Estudiant de doctorat del departament d’Estadística. Universitat de Texas (EUA).
Valen E. Johnson. Cap del departament d’Estadística. Universitat de Texas (EUA).

Què és Mètode? 

Recomanem

La premsa lliure no la paga el govern. La paguem els lectors.

Fes-te de VilaWeb, fem-nos lliures.

Fer-me'n subscriptor
des de 60€ l'any / 5€ el mes