La confusión de las cigüeñas

Por Colaborador Invitado, el 3 diciembre, 2012. Categoría(s): Divulgación

Es de esas historia que seguirá contándose, uno de esos ejemplos de libro que los docentes agradecen tener a mano en caso de necesidad: el mejor ejemplo de malinterpretación sádica de datos para producir resultados a toda costa. Como con toda anécdota contada hasta la saciedad, hay mil versiones; mi favorita es esta. Mi profesor solía decir, al final de una clase (el poderoso efecto del cliffhanger), que los datos son datos y nada más. Para ilustrarlo, nos situaba en Londres, algo después de la revolución industrial, y en medio de esa atmósfera de niebla espesa nos contaba un hallazgo de la época sorprendente: cuantas más cigüeñas se avistaran en la ciudad un año cualquiera, mayor era la natalidad humana ese año. Los datos apuntaban a una relación clara entre estos dos fenómenos, una correspondencia positiva significativa.

No parece haber muchas pruebas de que esa historia ocurriera de verdad, pero sí hay diferentes versiones muy similares y mejor documentadas. En este libro de 1989 ya se habla del «clásico» ejemplo de Paul Lazarsfeld (uno de los padres de la sociología cuantitativa) que relaciona cigüeñas con nacimientos humanos en Alsacia (donde, para rizar el rizo, la cigüeña blanca es un símbolo local). Y en 1988 se publicó en Nature un trabajo [1] donde también se relacionaban cigüeñas y natalidad, esta vez en la Alemania de 1960-80 y consiguiendo establecer cierta correlación en latitud y longitud, en lugar de centrarse en una simple ciudad: el fenómeno ocurría en gran parte del país. Este último estudio se amplió en 2004 [2] con datos más modernos e idéntico espíritu gamberro, explicando un factor que no se había tenido en cuenta: esa correlación solo existe en áreas rurales. Dado que no hay cigüeñas en los hospitales, en áreas urbanas la reproducción queda en manos de técnicas médicas.

Así, los autores dicen que ante la poca plausibilidad de la Teoría de la Reproducción Sexual (tenemos lagunas de conocimiento en el proceso del desarrollo fetal y sabemos que no todos los actos sexuales conllevan el nacimiento de un bebé), tenemos la firmeza de la Teoría de la Cigüeña (existe correlación estadísticamente significativa entre el número de cigüeñas y la natalidad, en tiempo y en el espacio. ¡Tenemos pruebas!).

Es solo la ilusión de causalidad en funcionamiento, esa que se da cuando una paloma supone que es alimentada cuando hace determinado gesto (cuando en realidad esto ocurre aleatoriamente, de forma independiente a lo que haga) o cuando una gripe remite y lo achacamos a las bondades del hígado de pato mareado. Hemos encontrado dos datos que parecen tener relación, así que tendemos a pensar que está implicado nuestro patrón favorito: la relación causa-efecto. En este caso no nos dejamos engañar por la ilusión, nuestro sentido común nos dice que algún error debe de haber. Os aseguro que los datos son correctos, por si alguno lo dudaba. ¿Cuál es el fallo entonces? No estamos teniendo en cuenta lo que mi profesor decía: los datos son datos, y convertirlos en información requiere pensar. En general, para decir que hemos encontrado pruebas de causalidad en una investigación estadística tenemos que descartar tres posibles fuentes de error:

Frecuentists vs. Bayesians.
  • Azar. Por mucho que diga el refrán, no hay en la naturaleza dos gotas de agua exactamente iguales, así que imaginad la variabilidad que existe entre los seres vivos. Si al hacer un estudio emerge una diferencia, un posible patrón, es difícil saber si esto se debe a un efecto real o al simple azar. Tengamos en cuenta que si tiramos una moneda al aire 100 veces, podríamos obtener 100 veces cara (no es probable, pero es posible). Para asegurar al menos una cierta confianza en que lo que vemos es real y no producto del azar, se impone un límite que es diferente en cada ciencia. En Medicina, si podemos demostrar que solo en 1 caso de cada 20 experimentos (95% de confianza en haber acertado, o 2 sigmas) nos podría dar ese resultado por azar, se admite como una relación real. Esto podría sorprender, pero es equivalente a las sentencias judiciales estadounidenses que se ven en televisión y películas: estamos seguros más allá de una duda razonable. En el campo de la física, cuando este verano se hablaba de la «demostración» de la existencia del bosón de Higgs se hablaba de una confianza de 5 sigmas (ahora van por casi 7 sigmas, tan solo una probabilidad entre un billón de que se deba al azar). En el caso de las cigüeñas, algunos estudios muestran que las posibilidades de que los resultados sean debidos al azar es de solo 1 entre 125 [3], más que suficiente para que la mayoría de ciencias biológicas los consideren válidos.
  • Sesgo. Todo científico aprende que errar es humano, y que equivocarse es mucho más sencillo que aprender a evitar esos errores. Existen muchos tipos de sesgos, pero suelen definirse como un error sistemático que afecta a la validez de un estudio. Es decir, una influencia inesperada que enmarrana los datos del estudio, volviéndolo inútil, ya que no podremos extrapolar los datos del caso concreto a la situación general. Un buen método científico intenta asegurar que exista la menor cantidad de sesgos posible. Por ejemplo, se usan técnicas de doble ciego: al intentar comparar dos fármacos, cada uno en un grupo de pacientes, se oculta (tanto al paciente como al investigador) qué fármaco toma cada paciente, para que la valoración de cuánta mejoría ha habido no se vea influenciada por sus prejuicios. Hablábamos antes de lanzar una moneda al aire; quizás el experimento con monedas más famoso es el de John Kerrich. Siendo matemático y estando recluido por los nazis, no se le ocurrió nada mejor que hacer que lanzar una moneda al aire 10000 veces y anotar los resultados (de ahí salió la Ley de grandes números, demostrada por Kolmogorov). A Kerrich no le salió un resultado de exactamente 50% para cara y para cruz, sino un 50.67% de caras. Eso es una mínima variación debida al azar. Sin embargo, cuando repitió el experimento con una moneda trucada obtuvo un 70% de caras: de no haber sabido que estaba trucada, habría habido un sesgo, un resultado que no se puede extrapolar a las monedas normales.
  • Confusión. La tercera fuente de error a eliminar para poder decir que parece haber causalidad. Un factor confusor es aquel que afecta a dos eventos independientes entre sí, haciendo parecer que estos están relacionados directamente. Se forma así un triángulo, en el que dos lados son relaciones reales que parten del factor confusor (y que desconocemos) y el otro es la relación que vemos, que es tan solo una relación aparente. Por ejemplo, se ha dicho que el café provoca cáncer de páncreas, cuando lo que ocurre es que hay más fumadores entre los bebedores de café, y es el tabaco el que produce el cáncer: el grupo de bebedores de café y el de no bebedores no son comparables, porque además de diferenciarse en la ingesta de cafeína, se diferencian en cuánto fuman. Hay quien entiende que la confusión es un tipo de sesgo, ya que estamos alterando la validez del estudio, volviéndolo no generalizable.

Estos factores confusores son fáciles de ver una vez explicados, pero a veces hacen falta años de trabajo para descubrir que algo ha salido mal por este motivo. Retomamos el caso de la gripe. Si realizamos un macroestudio entre los consumidores de medicina alternativa (por si alguien no se aclara con el término: la normal es la que funciona, la alternativa es en la que tiran el dinero 1680900 españoles mayores de 16 años cada año) durante un episodio de gripe, al analizarlo veremos que casi todo el mundo se ha curado a los días. Esto no demuestra que tomar cantidades ingentes de azúcar o perfumes florales increíblemente caros cure nada: todo sanitario ha oído alguna vez que «la gripe se cura sin tratamiento en una semana y con tratamiento, en 7 días». Al analizar nuevos fármacos tenemos que tener en cuenta el curso de la enfermedad, el camino que de por sí suele seguir esa patología sin necesidad de que un tratamiento la afecte (entre muchos otros potenciales factores confusores).

Otro posible caso, esta vez con las temidas ondas del mal. Imaginemos un potente estudio en el que se apunta a que usar el móvil aumenta el riesgo de un determinado tipo de cáncer. Sin embargo, no existe una explicación de la causa plausible: de momento no conocemos mecanismos físico-químicos razonables para que eso pueda ocurrir. Asumiendo que hemos minimizado todo lo posible el azar, tendremos que plantearnos si ha habido sesgos (como el de memoria: ¿de verdad quienes han desarrollado ese cáncer usaban el teléfono 10 horas al día, como algunos dicen? ¿Es posible que lo sobreestimen por estar preocupados de que sea la causa de su enfermedad?) o variables confusoras (quizás quien viva 10 horas diarias pegado al móvil por trabajo tiene mayor nivel de estrés).

Volviendo a nuestra pequeña anécdota: en la historia londinense, parece que la variable confusora era el clima. Ni las cigüeñas ni las personas son estúpidas, e intentan aprovechar los recursos disponibles al máximo. Las cigüeñas criaban más (y morían menos) en épocas de bonanza, en años con más sol y alimentos, y lo mismo hacían los ingleses.

Es tentador saltar rápidamente a causas y consecuencias cuando los datos «demuestran que» hay relación entre dos eventos, pero la causalidad solo se establece investigando y pensando durante meses o años, eliminando todas las demás alternativas hasta que quede solo esa (y aun así será solo una conclusión provisional). Por suerte, ese es un camino fascinante que merece ser recorrido por méritos propios.

—————————————

El artículo participa en la II Edición de los Premios Tesla de Divulgación Científica y nos lo envía Borja Apellaniz Aparicio a quien podéis seguir en twitter en la cuenta @LemonMaelstrom

Bibliografía y fuentes

[1] Sies H. A new parameter for sex education. Nature 1988;332:495. doi:10.1038/332495a0

[2] Höfer T, Przyrembel H, Verleger S. New evidence for the theory of the stork. Paediatr Perinat Epidemiol. 2004 Jan;18(1):88-92.

[3] Matthews, R. (2000), Storks Deliver Babies (p= 0.008). Teaching Statistics, 22: 36–38. doi: 10.1111/1467-9639.00013

[4] El ejemplo clásico del cáncer de páncreas y el café (MacMahon, 1981) se ha revisitado varias veces, y se ha planteado que quizá sea la edad el factor confusor y no el tabaco, que ya es tenido en cuenta en el original: a mayor edad, más se consume y más incidencia de cáncer hay. Curso PH207x Health in Numbers: Quantitative Methods in Clinical & Public Health Research, en edX



Por Colaborador Invitado, publicado el 3 diciembre, 2012
Categoría(s): Divulgación