20 consejos para que los políticos sepan interpretar la ciencia

En ciencia raramente nos encontramos frente a un experimento bien diseñado, con doble ciego, repetido varias veces, aleatorio, con controles, con un tamaño muestral suficiente y con conclusiones inequívocas respecto al tema que se investiga.

Hay muchos factores que influyen en los experimentos y sobre todo en la interpretación de los resultados.

Mis information

Hace un par de años, un profesor de biología de la conservación, un matemático (ambos de Cambridge), y un investigador de botánica australiano publicaron en Nature veinte consejos para ayudar a interpretar la ciencia. Son ideas que nos pueden ayudar a todos a mantener un cierto criterio a la hora de enfrentarnos a los datos científicos que nos presentan estudios no solo biológicos, sino también sociológicos o estadísticos. Especialmente interesante puede ser para aquellas personas que, sin conocimientos científicos, tiene capacidad de decisión y gestión política.

Política y ciencia se enfrentan en temas como el cambio climático, la desaparición de las abejas, la energía nuclear, los transgénicos o el control de las enfermedades infecciosas.

cambio climatico

Te animo a consultar directamente el artículo original, porque yo aquí resumo y hago una interpretación personal de lo que me ha parecido más interesante.

1. El mundo real varía de forma impredecible.

La ciencia se dedica en parte a descubrir las causas de los patrones que vemos, pero puede haber muchas explicaciones para un mismo fenómeno. Uno de los principales retos de la investigación científica es encontrar la razón de la realidad, sin olvidar las innumerables fuentes de variación.

2. Ninguna medida es exacta.

Prácticamente todas las medidas tiene algún error. Si mides un proceso varias veces, lo normal es que obtengas resultados diferentes. Los resultados deben presentarse siempre con el error asociado a la medición.

3. El sesgo es frecuente.

El diseño experimental o el método de medida puede producir resultados atípicos o sesgados en una determinada dirección. Por ejemplo, en un ensayo clínico el resultado puede estar influenciado por la expectativas que tengan los participantes en dicho ensayo. Pero además, el mismo investigador que recoge y analiza los resultados también puede estar influenciado si conoce el tratamiento de antemano. Por eso, lo ideal en este tipo de ensayos son los experimentos doble ciego, en los que ni los participantes ni el investigador conocen quién ha recibido qué tratamiento concreto. El sesgo ocurre cuando un investigador deja de ser lo suficientemente crítico, objetivo e imparcial con sus propios resultados o cesa de investigar si hay evidencias contrarias a su hipótesis de partida.

4. Cuanto mayor sea el tamaño de la muestra mejor.

Los resultados obtenidos con un mayor número de observaciones suelen ser más informativos y fiables que los que se obtienen de un menor número de datos. Es decir, conforme acumulamos más evidencias nuestro conocimiento mejora. Esto es especialmente importante en las encuestas, por ejemplo, o cuando nuestro estudio está sujeto a variaciones naturales o a errores de medida. La efectividad de un tratamiento puede variar de forma natural entre personas distintas, por eso, un ensayo clínico es más fiable si se ensaya en decenas de miles de individuos en vez de en unos pocos cientos.

5. Correlación no implica causalidad.

Suele ser muy tentador asumir que un determinado hecho es la causa de otro. Sin embargo, quizá esa correlación entre hechos puede ser mera coincidencia. Un ejemplo actual puede ser la correlación en el tiempo entre la edad a las que se ponen algunas vacunas y la aparición del autismo, que no implica que la causa del autismo sean las vacunas.

6. La regresión a la media puede ser engañosa.

No se puede descartar que los valores extremos obtenidos en un experimento sean debidos, en parte, a anormalidades debidas al azar o a errores de medida.

7. Extrapolar mas allá de los datos suele ser arriesgado.

Los patrones de comportamiento encontrados en un determinado experimento no necesariamente pueden aplicarse fuera de ese experimento concreto. Por ejemplo, es muy difícil predecir la respuesta de un sistema ecológico a los cambios del clima, cuando los cambios son muy rápidos o nuevos, o cuando cambian las condiciones.

8. Cuidado con la falacia de la tasa de referencia.

La capacidad de un test imperfecto de identificar una condición depende de la probabilidad de que esa condición ocurra. Por ejemplo, una persona puede dar positivo en un test que detecta una enfermedad muy rara y con muy baja prevalencia, con una exactitud del 99%, pero sin embargo no padecer esa enfermedad. Si ese test se aplica a 10.001 personas de las que solo 1 tiene la enfermedad, probablemente el test la detecte, pero puede haber otras 100 que den positivo (el 1 %) y que no estén enfermas, son falsos positivos.

9. Los controles son (muy) importantes.

Todos los experimentos deben tener su grupo control. El grupo control hay que tratarlo igual que al grupo experimental, excepto que no se le aplica el tratamiento, por ejemplo. Sin un control en el experimento es muy difícil determinar si un tratamiento realmente ha sido efectivo. El control ayuda a los investigadores a interpretar los resultados y a estar seguros de que los resultados obtenidos no son debidos a otras variables que pueden afectar a los resultados. En los ensayos clínicos algunas persona pueden dar resultado positivo debido al contexto, a la persona que interviene o incluso ¡al color de la pastilla! Es lo que se denomina efecto placebo, un fenómeno que ocurre cuando los síntomas de un paciente mejoran por el tratamiento con una sustancia inocua, es decir, una sustancia que no tiene ningún efecto relacionados con el tratamiento de la enfermedad. Es decir, es el propio paciente el que se influencia a sí mismo por la sensación de ser tratado o la esperanza de curarse, y como resultado puede encontrarse mejor o incluso facilitar la recuperación.

10. La distribución aleatoria reduce el sesgo.

Los experimentos deben, en la medida de los posible, colocar a los individuos o a los grupos sobre los que se va a intervenir de forma aleatoria. Se deben seleccionar a los sujetos a estudio de forma aleatoria para reducir el sesgo.

President Barack Obama looks through a microscope during his tour the Bio-technology program at Forsyth Tech Community College in Winston-Salem, N.C., Monday, Dec. 6, 2010. (AP Photo/Pablo Martinez Monsivais)
President Barack Obama looks through a microscope during his tour the Bio-technology program at Forsyth Tech Community College in Winston-Salem, N.C., Monday, Dec. 6, 2010. (AP Photo/Pablo Martinez Monsivais)

11. Hay que repetir.

Los resultados que son consistentes en estudios repetidos en poblaciones independientes son mucho más fiables. Cuanto más repitas un experimento más fiable será. Los resultados de este tipo de estudios se pueden combinar y pueden tener mayor valor estadístico que un estudio individual. En broma, se suele decir en los laboratorios que “si un experimento te ha salido bien … no lo repitas!”, la segunda vez seguro que cambia el resultado, pero esta afirmación no deja de ser una broma.

12. Los científicos son humanos (aunque no lo parezcan).

Los científicos tienen un gran interés en promocionar su trabajo, a menudo para obtener fondos de investigación y prestigio profesional. Esto puede llevar a mostrar sus resultados de forma sesgada, selectiva, subjetiva o exagerada. La revisión por pares de muchas revistas no es infalible, y los editores de las revistas también pueden influir en la decisión final por razones de interés periodístico. Lo más convincente es que un grupo de investigación independiente repita el experimento y obtenga el mismo resultado.

13. La significación estadística es “significante” (importante).

La significación estadística expresada como P es una forma de medir la probabilidad de que un resultado ocurra por casualidad. Una P = 0,01 quiere decir que hay 1 probabilidad entre 100 de que lo que parece un efecto del tratamiento haya ocurrido en realidad por azar. Por eso, cuanto menor sea la P, más fiable es el resultado, mejor. Normalmente se suele aceptar que una P inferior de 0,05 (1 en 20) es un resultado estadísticamente significativo.

14. Efecto nulo no es lo mismo que la falta de significación estadística.

Un resultado que sea estadísticamente no significativo (por ejemplo, con una P mayor de 0,05) no quiere decir que el resultado sea nulo y que no hubo ningún efecto. Significa que no se ha detectado ningún efecto, que es distinto. Quizá si el tamaño de la muestra fuera mayor, se podría haber observado algún efecto.

15. El tamaño (del efecto) si importa.

La importancia del tamaño del efecto si importa, es una cuestión biológica, física o social, y no estadística. El resultado puede ser estadísticamente significativo, pero el efecto puede ser muy pequeño y por eso poco significativo estadísticamente, pero muy importante desde el punto de vista biológico.

16. No se puede generalizar.

La relevancia que tenga un estudio depende de que las condiciones en las que se ha hecho sean lo más parecidas a la situación real. Por ejemplo, hoy en día somos capaces de curar casi todas las enfermedades humanas … en ratones. Los resultados positivos en los experimentos con animales no siempre se repiten en los seres humanos. No somos ratones.

17. Los sentimiento influyen en la percepción del riesgo.

El riesgo es la probabilidad de que ocurra un evento en un período de tiempo, multiplicado por las consecuencia en caso de que ocurra. La percepción del riesgo depende de muchos factores, de la probabilidad de que ocurra, del control que nosotros pensamos que tenemos de la situación, de la adversidad de los resultados, de si el riesgo es voluntario o no. Por ejemplo, en EE.UU. las personas subestiman el riesgo asociado a tener una arma de fuego en su casa y sobreestiman los riesgo de vivir cerca de una central nuclear, por ejemplo. Es una cuestión de sentimientos.

18. El riesgo cambia cuando confluyen varios factores.

Puede ser fácil calcular las consecuencias de un evento individual, pero si coinciden varios factores a la vez, la probabilidad del riesgo cambia totalmente.

19. Los datos pueden ser seleccionados intencionadamente.

Las evidencias puede manipularse para apoyar una determinada hipótesis o punto de vista. No es lo mismo interpretar los datos (previamente seleccionados) con una hipótesis de partida única, que llegar a un hallazgo a partir de un enorme conjunto de datos sin seleccionar.

20. Las comparaciones son odiosas.

Hay variables que depende de múltiples factores. Si los resultados se simplifican y se atribuyen a un solo factor, se puede cometer un error de interpretación. Por eso, las comparaciones de resultados que dependen de muchos factores pueden ser poco fiables.

Policy: Twenty tips for interpreting scientific claims. W. J. Sutherland, D. Spiegelhalter & M. Burgman. Nature. 2013. 503: 335–337. doi:10.1038/503335


5 Comentarios

Participa Suscríbete

GuillermoGuillermo

Respecto al punto 2, es preferible utilizar el término incertidumbre de la medida a error de la medida. Incertidumbre es la denominación oficial en guías de control de calidad, se utiliza en vez de error pues en este contexto no son errores. Por lo demás gracias por recordar cosas que frecuentemente olvidan políticos y periodistas.

yeilyeil

Muy bueno el artículo, por desgracia no creo que los políticos actúen así por desconocimiento, pues pueden preguntar a los expertos, sino por interés.

Pero sí que puede ser útil para los votantes.

Unas puntualizaciones:
3- El sesgo depende del diseño y la metodología del estudio. Que el investigador no tenga en cuenta otras posibles explicaciones no hace que su estudio esté sesgado.
4- El tamaño de la muestra es importante… hasta cierto punto. Aumentar la muestra aumenta también el error de tipo I (detectar como significativo algo que realmente no lo es), por eso en física en vez de utilizar 2 sigma utilizan 5, porque su muestra es de millones y millones de choques de partículas. Hoy en día de hecho te exigen que calcules cuanta muestra necesitas (hay una fórmula para ello) antes de realizar tu estudio y como mucho le sumes un 20-25% por los posibles “dropouts” (pacientes que dejan el estudio), tanto para evitar el error de tipo I como para hacer un uso razonable de los recursos.
10- La aleatorización es importante. Aquí no discrepo, pero voy a explicar el por qué es así. El principal problema de los estudios retrospectivos es que no podemos controlar que el grupo control y test tengan las mismas características (edad, sexo, enfermedades, predisposición…). Sin embargo los ensayos clínicos al ser prospectivos y ser nosotros los que determinamos la exposición nos permiten aleatorizar la muestra. De esta forma se asegura que ambos grupos sean homogéneos y las diferencias en los resultados no se deban a las propias diferencias entre grupos más que al tratamiento.
13- La significación estadística es importante. Rotundamente sí, y mucho, pero hay que evitar ser talibanes de la p. Una “p” más pequeña no hace más confiable el resultado, de hecho la causalidad la determina el diseño del estudio, no la p. Esto se debe a varios motivos:
– Si la muestra es muy grande se pueden encontrar p muy pequeñas que realmente no existen.
– Aunque existan, más importante que la significación estadística es lo que se llama la relevancia clínica. Un resultado con una p = 0,0000001 pero muy por debajo de la relevancia clínica es un tratamiento que funciona, pero que no se va a usar, pues apenas afecta a la mejoría del paciente.
– Por último y más importante está lo que se conoce como “cherry picking” que viene a ser que cuando nuestra variable principal de estudio no nos sale significativa nos ponemos a buscar como locos si otras de las variables que hemos medido salen significativas. Esto es un error muy grave, pues tanto el calculo del tamaño muestral como la aleatorización la hemos calculado para nuestra variable principal y no sirve para el resto. Esta es una de las principales fuentes de sesgo de los estudios.
– Por último y no menos importante, un resultado que roce la significatividad sin llegar (por ejemplo, p= 0,059) pero con un tamaño de efecto grande puede ser muy interesante. Hay que buscar en futuros estudios en qué grupo de gente sí es efectivo.

Quería añadir un punto más pero se me ha olvidado mientras escribía el mensaje, si lo recuerdo lo pongo después.

espaidualespaidual

otra más:
los momentos estadísticos en una distribución de ley de potencia no tienen ningún significado. (Sueldo o riqueza media, por ejemplo)

MiguelMiguel

Hola,
mucho me temo que ningún político, ojalá me equivoque, va a entender lo que dice el artículo, si es que acaso por equivocación llegase a leerlo. Por lo que con gran seguridad, para tomar decisiones, seguirán basándose en lo que les diga su primo.

Deja un comentario

Tu email nunca será mostrado o compartido. No olvides rellenar los campos obligatorios.

Obligatorio
Obligatorio
Obligatorio

Puedes usar las siguientes etiquetas y atributos HTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>