¿Qué resultados científicos son de fiar?


El pasado 11 de noviembre un artículo de New Scientist apuntaba a un estudio que encontraba evidencias de precognición. El estudio fue realizado por Daryl Bem, de la Universidad Cornell, conocido en el pasado por experimentos similares.

En uno de los experimentos, por ejemplo, se les ponían a los estudiantes imágenes de dos cortinas en un ordenador. Una de las cortinas tenía una imagen detrás, la otra tenía una pared en blanco. La tarea consistía en indicar con el ratón la cortina donde creyeran que estaba la imagen. Posteriormente, el ordenador situaba aleatoriamente una imagen fuertemente erótica detrás de una de las cortinas.

Bem afirma haber encontrado un porcentaje de aciertos del 53%, cuando por azar cabría esperar un número más cercano al 50% y que su resultado es estadísticamente significativo, pero ¿qué significa exactamente eso de estadísticamente significativo?… Puede que nada relevante.

Pongamos un ejemplo sencillo con un test de embarzo que acierta el 98% de las veces cuando la mujer está embarazada pero que tiene un 4% de falsos positivos, es decir, que indica que hay embarazo cuando la mujer no lo está de hecho. Una mujer se hace el test y resulta positivo. ¿Está embarazada?. Aún siendo un resultado estadísticamente significativo, una chica de 23 de años que mantenga relaciones sexuales sin protección con frecuencia interpretaría (o debería interpretar) de manera diferente ese resultado que una de 50 que mantiene relaciones una vez al mes de media. En otras palabras, el grado de verosimilitud a priori que tenga una afirmación es relevante a la hora de evaluar los resultados de un experimento.

Esa es otra manera de regresar a la máxima, afirmaciones extraordinarias requieren pruebas extraordinadinarias, puesto que con la precognición estamos más en el análogo de la mujer de 50 años, y por tanto necesitaríamos alguna evidencia más robusta que un resultado estadísticamente signficativo en un solo test. Por supuesto existen críticas más detalladas de los resultados de Bem, pero mi intención era  señalar ese único punto como ejemplo de la fuerza de algunos principios básicos como primera aproximación a una evaluación crítica.

Resulta sencillo atacar a una disciplina tan inconsistente como la parapsicología. Pero qué ocurre con disciplinas con mayor pedigrí como la psicología o la medicina por ejemplo. ¿Están los investigadores utilizando alegremente estudios cuyos resultados son tan discutibles como los de la parapsicología?. Dos artículos recientes, uno aparecido en The Atlantic y otro en The New Yorker han puesto su punto de mira en el resto de la comunidad científica. Sin embargo, ambos artículos no son más que una versión dramatizada para un diario de un artículo de John Ioannidis publicado en 2005 y posteriormente muy citado:  “por qué casi todos los resultados publicados son falsos”.

El artículo de Ioannidis —a pesar de su impactante título— sólo es una advertencia para mantener la lupa escéptica cerca del cuaderno de notas del investigador. Pongamos como ejemplo la medicina. Los primeros ensayos suelen producirse con grupos reducidos que aumentan las posibilidades de falsos positivos. Ese éxito aparente invita a más investigadores en la carrera por la publicación debido –entre otras razones– a que las publicaciones tienen un importante sesgo hacia los resultados positivos. A medida que los ensayos se hacen en grupos mayores y se mejoran los controles, el efecto inicial tiende en general a hacerse menos significativo. En ese sentido, casi todos los nuevos resultados que saltan a la prensa con grandes titalares suelen ser falsos. Sin embargo, a diferencia de la prensa, en la comunidad científica suele corregirse –al menos en el largo plazo– ese prejuicio inicial favorable a los nuevos resultados.

Llegados a este punto imagino a homeópatas y seguidores de todo tipo de pseudomedicinas exclamando: “ya ven, a nosotros nos critican por lo mismo que hace la comunidad científica”. No exactamente. La diferencia fundamental consiste en que la comunidad científica no se cree gran parte de sus resultados. Mientras que ellos sí que que se creen la gran mayoría de los suyos. Pecan de falta de escepticismo. Es una diferencia importante. Y la prueba es precisamente la repercusión del artículo de Ioannidis, ampliamente citado desde su aparición.

O el ruido de fondo de los autodenominados escépticos del cambio climático antropogénico o de los antivacunas. “¡ajá!, entonces la confianza con la que hablan los expertos está sustentadas en pies de barro”. De ningún modo. Cuando los expertos hablan con confianza es en general porque se ha realizado un trabajo meticuloso durante décadas descartando otras hipótesis alternativas y encontrando un efecto que resulta cada vez más significativo –no menos– a medida que se diseñan más y mejores ensayos, experimento u observaciones, por lo que sus afirmaciones han dejado poco a poco de ser extraordinarias. Y eso sin mencionar la existencia de un marco teórico en el que dichos resultados tienen sentido. El pecado aquí es diferente y se trata de exceso injustificado de escepticismo. Afirmaciones ordinarias sólo requieren pruebas ordinarias. La chica promiscua de 23 años con un test positivo de embarazo –siguiendo con nuestra analogía– podría sentir cierta incertidumbre, pero no precisamente sobre el resultado del test.

Más información:

●  Ensayos clínicos: ¿por qué casi todos los resultados publicados son falsos?

●  ¿Se puede presentir el futuro?. Últimas noticias del cosmos

●  Richard Feynman. Esa era acientífica. Qué significa todo eso. Drakontos.

●  The “decline effect”: Is it a real decline or just science correcting itself? Science-based Medicine

Licenciado en física y profe de secundaria, la plataforma de
lanzamiento que me ha traído hasta aquí es la enorme comunidad de
bloguers formada en torno a Blogalia. Desde el blog Ecos del futuro he intentado aportar mi granito de arena en la divulgación del pensamiento crítico.



Por Ecos del futuro
Publicado el ⌚ 11 enero, 2011
Categoría(s): ✓ Divulgación • Escepticismo