Estimación de los infectados diarios por COVID-19 en España durante la primera ola

Por Colaborador Invitado, el 3 junio, 2021. Categoría(s): Divulgación • Matemáticas

Uno de los grandes misterios que nos deja la COVID-19 es cuánta gente se infectó durante la primera ola. Esta enfermedad es muy difícil de detectar porque 1 de cada 3 infectados es asintomático y pasan la enfermedad sin saberlo. Además, más o menos la mitad presenta síntomas parecidos a la gripe y pueden pasar la enfermedad sin estar seguros de si es COVID. En estos casos, la única forma de saber si se tiene la enfermedad es realizar un test específico. El problema es que durante la primera ola no se disponía de test suficientes y no se detectaron muchos de los casos. Tanto es así, que entre 27 de abril y el 22 de junio de 2020, el Instituto de Salud Carlos III realizó un complicadísimo estudio longitudinal de seroprevalencia. Seleccionaron a unas 68000 personas al azar en toda España, pero estratégicamente distribuidas por edad y código postal para que los resultados fueran representativos. Durante tres rondas de unas 2 semanas cada una realizaron test a 55000 de los seleccionados que accedieron a participar en el estudio. La conclusión del estudio fue que el 22 de junio de 2020 había pasado la enfermedad el 5.2% de la población, es decir unos 2.45 millones de personas. Esta cantidad es 10 veces superior a los infectados que se había conseguido registrar hasta esa fecha, lo que demuestra lo difícil que fue detectar enfermos de COVID en aquella época. 

Al principio de la pandemia, confinado en casa y deseoso de saber más sobre esta enfermedad que había cambiado nuestras vidas de forma tan radical, al igual que tantos otros científicos, me puse a estudiar sobre el COVID-19. Formamos un equipo de dos matemáticos, dos biólogos expertos en modelos dinámicos de poblaciones de medusas (sí, medusas) y dos médicos. Nuestro objetivo era construir un modelo matemático que nos permitiera entender mejor la pandemia. El primer escollo con el que nos encontramos es que los datos de infectados eran malísimos. El mejor modelo del mundo, ajustado a datos erróneos no sirve para nada. Sin embargo, el estudio de seroprevalencia nos dio algo esperanza, aunque automáticamente nos vino a la mente la siguiente pregunta. ¿Hay alguna manera de saber cuándo se infectaron esos 2.45 millones de personas que habían pasado la enfermedad hasta el 22 de junio? La respuesta es que sí, gracias al método REMEDID (Retrospective Methodology to Estimate Daily Infections from Deaths) que acabamos de publicar en Scientific Reports (https://www.nature.com/articles/s41598-021-90051-7).

El secreto está en utilizar la información que aportan los datos de las muertes, que aún sin ser perfectos, son mucho mejores que los datos de infectados. Veamos en qué se basa. Supongamos primero que para un muerto por COVID conocemos cuál fue su periodo de incubación (PI) y el periodo que pasó desde que le aparecieron los síntomas hasta que se murió (PSM). En ese caso, restando la suma de los dos periodos, PI+PSM, a la fecha de la muerte, podríamos obtener la fecha de infección. En la realidad, esa información no está disponible para cada caso, pero sí de forma estadística. Aquí hay que entender que el PI y el PSM pueden ser distintos para distintas personas. A principios de 2020, en China, Linton y sus colegas calcularon la probabilidad de que PI y PSM durase 1 día, 2 días, etc., es decir, calcularon sus distribuciones de probabilidad. La Figura 1 muestra la distribución continua y su versión discreta con probabilidad día a día. 

Figura 1. Funciones de densidad del Periodo de Incubación (curva azul) y del Periodo de aparición de Síntomas a Muerte (curva roja). Las barras son una discretización de las funciones de densidad.

¿Cómo podemos conseguir la distribución de PI+PSM? La probabilidad de que PI+PSM=10, por ejemplo, será la probabilidad de que PI y PSM sumen 10, es decir, la probabilidad de PI=1 y PSM=9, más la probabilidad de que PI=2 y PSM=8, etc. Suponiendo que PI y PSM sean independientes, lo cual es razonable, se tiene que 

P(PI=n y PSM=m) = P(PI=n) x P(PSM=m),

donde P representa la probabilidad y n y m son dos números naturales (positivos y enteros). Por tanto,

P(PI+PSM=10) = P (PI=1) x P(PSM=9) + P (PI=2) x P(PSM=8)+… +P(PI=9) x P(PSM=1).

Esta operación se conoce como convolución (discreta), y de manera general podemos escribir

para cualquier k natural. De esta forma, obtenemos la distribución (discreta) de PI+PSM, a la que llamaremos X por abreviar la notación (Figura 2).

Figura 2. Función de densidad de X=PI+PSM, es decir, del periodo desde infección a muerte. Las barras son una discretización de las función de densidad.

Veamos cómo podemos aprovechar esto para calcular los infectados a partir de los muertos. Supongamos que tenemos un muerto en cierto día N. La probabilidad de que se haya contagiado 1 día antes es P(X=1); 2 días antes, P(X=2); y así, la probabilidad de que se haya contagiado k días antes es P(X=k). Si M(f) representa los muertos que se produjeron en la fecha f, podemos decir que P(X=1) ´M(f) muertos se infectaron el día f-1; P(X=2) ´ M(f) se infectaron el día f-2; y así sucesivamente.

Y aquí viene la clave del método. Siguiendo con el razonamiento podemos decir que el día f-1 hubo P(X=1) ´ M(f) infectados que murieron el día f;  P(X=2) ´ M(f+1) infectados que murieron el día f+1; y así sucesivamente. De esta forma, el día f-1 se infectaron

que terminaron muriendo. Afortunadamente, no todos los infectados por COVID terminan muriendo, sino que solo un porcentaje que se conoce como Tasa de Letalidad (TL). La TL varía en el tiempo, ya que depende de los tratamientos de la enfermedad (los cuales mejoran con el tiempo), de la saturación de los hospitales (que puede aumentar la TL en los periodos en los que no haya suficientes respiradores, por ejemplo), etc. Por simplicidad, y porque no sabemos hacerlo de otra manera por el momento, asumiremos que la TL fue constante durante la primera ola en España. Por tanto, por cada infectado que se murió, hubo un total de 100/TL infectados. Por ejemplo, si TL=1%, por cada muerto hubo 100/1=100 infectados. De esta forma, el día f-1 hubo un total de 

infectados. Y así es como funciona el algoritmo de REMEDID para reconstruir los infectados a partir de las muertes. 

Para no alargarnos mucho, os contaré que por un lado tenemos las muertes asociadas al COVID, las cuales fueron subestimadas porque a muchos muertos no se les hizo test, especialmente en residencias de ancianos, donde se calcula que unos 7000 murieron con síntomas compatibles al COVID y sin diagnosticar hasta mayo del 2020. Y el exceso de muertes por cualquier causa registrado por el MoMo. Aquí entrarían todas las muertes de COVID, las contadas y las que no, más las muertes derivadas de la saturación del sistema sanitario, como las de ciertas enfermedades que no se pudieron tratar a tiempo o con el debido seguimiento. Simplificando un poco pensaremos que las muertes asociadas a COVID y el exceso de muertes de MoMo representan unas cotas inferiores y superiores de las muertes reales por COVID. Con las primeras obtenemos una TL del 1.05% hasta el 22 de junio de 2020, y con las segundas obtenemos un 1.85%. Aplicando el REMEDID en ambos casos obtenemos las infecciones representadas en la Figura 3, las cuales son mucho mayores que las oficiales. Nótese que el 14 de marzo, cuando se declaró el confinamiento nacional, oficialmente hubo 1832 infecciones nuevas, pero que con el REMEDID vemos que en realidad hubo un valor entre 63727 y 77855 infecciones nuevas. Además, a partir del confinamiento las infecciones empezaron a descender de manera inmediata, aunque en los datos oficiales no se observó hasta 2 semanas después.

Figura 3. Infectados por COVID-19 durante la primera ola en España: infectados documentados durante esas fechas (curva azul), infectados calculados con REMEDID a partir de las muertes oficiales de COVID (curva roja) y del exceso de muertes MoMo (curva negra). Las líneas punteadas son errores derivados de los calculados en el estudio de seroprevalencia.

Aclaraciones:
(1) Las infecciones obtenidas no son números naturales, por lo que se redondean al natural más cercano para su interpretación.

(2) Las infecciones oficiales que se han usado son las que estaban disponibles en junio de 2020. En 2021, los datos oficiales han mejorado un poco y cuentan con 7478 infecciones nuevas en el 14 de marzo de 2020.


Este artículo nos lo envía David García (@unmatematico): Licenciado en Matemáticas por la Universidad de Valencia en 2001 y Doctor por la Universidad de Alicante en 2006. Su tesis doctoral estudia los dos factores que más afectan a las variaciones interanuales del nivel del mar, a saber, las variaciones de densidad del agua (calentamiento fundamentalmente) y las de cantidad de masa de agua (deshielo, evaporación, etc). El resto de su investigación también está enmarcada en la observación de la Tierra a partir de satélites. Desde la primavera de 2020, y como tantos otros investigadores, David aplica sus conocimientos matemáticos en la COVID-19. Sus publicaciones se pueden encontrar en https://orcid.org/0000-0002-7273-9037. A nivel docente, es profesor de Matemáticas en la Escuela Politécnica Superior de la Universidad de Alicante desde 2003. Podéis seguir a David en su twitter: @Unmatematico




Por Colaborador Invitado, publicado el 3 junio, 2021
Categoría(s): Divulgación • Matemáticas