Salud pública · IA · 2024

Omdena · Colaboración internacional

IA anti malaria: app predictiva para prevención en Liberia

Colaboración en una aplicación impulsada por IA para predecir el riesgo de transmisión y anticipar brotes de malaria en Liberia, trabajando con escasez de datos y modelos de regresión.

Aplicación de IA anti malaria en Liberia

El miércoles 15 de mayo de 2024 se presentó el proyecto Develop an AI-powered App for Predictive Modeling and Forecasting of Malaria Prevention in Liberia, por los colaboradores de la comunidad Omdena.

Fue una ocasión donde se reunieron personas vinculadas al mundo de los datos desde lugares como Sri Lanka, India, Estados Unidos, Bolivia, Portugal, Brasil y varios países de África Occidental, incluyendo la propia Liberia. Para la mayoría fue su momento de poner a prueba todo lo aprendido sobre Data Analytics, Data Science y Machine Learning Engineering.

El proyecto fue gestionado por el Data Scientist liberiano Daikukai Bindah.

En este artículo me refiero a dos retos del desarrollo: la relevancia de encontrar soluciones a esta enfermedad y cómo, ante la falta de datos suficientes y continuos, se modeló el proyecto.

I) Retos para eliminar la malaria en el mundo

Una especie de mosquitos es responsable del 67% de las muertes por malaria en niños menores de 5 años.

En 2020, África fue la región líder, enfrentando el 95% de los casos de malaria con el 96% de las muertes. Del total de víctimas, el 80% fueron niños menores de 5 años en esa zona, según el informe Mathematical Modelling and Optimal Control of Malaria Using Awareness-Based Interventions de Fahad Al Basir y Teklebirhan Abraha.

Le siguen las mujeres embarazadas: según la OMS, la malaria durante el embarazo puede causar complicaciones graves tanto para la madre como para el feto, incluyendo anemia severa, parto prematuro y bajo peso al nacer.

Durante décadas se ha combatido y controlado esta plaga, e incluso se ha eliminado en varias regiones de Europa y Asia. Pero los mosquitos Anopheles han desarrollado resistencia a medicamentos e insecticidas. La infraestructura de salud en regiones endémicas es insuficiente. Los recursos financieros son limitados y dependen de donaciones internacionales a menudo inestables. La incidencia de la enfermedad se expande por factores climáticos, e incluso la movilización de personas dentro de un mismo país contribuye a su proliferación.

En el informe A global map of dominant malaria vectors presentado por el Spatial Ecology and Epidemiology Group de la Universidad de Oxford, liderado por Marianne Sinka con quince científicos, se menciona que los protozoos de la malaria humana son transmitidos por mosquitos del género Anopheles, que incluye 465 especies formalmente reconocidas. Aproximadamente 70 de estas especies tienen capacidad para transmitir parásitos de malaria humana y 41 son consideradas vectores dominantes (DVS).

De las especies que causan malaria, es Plasmodium falciparum el que transmite la forma más peligrosa, produciendo el 80% de las infecciones y el 90% de las muertes.

El parásito siempre tiene dos hospedadores en su ciclo de vida: un mosquito que actúa como vector y un hospedador vertebrado.

Existen cientos de papers en el mundo para mejorar el diagnóstico de esta enfermedad, producir medicamentos que mitiguen sus síntomas y lograr su cura definitiva. Cada uno suma para alcanzar la meta de eliminar la malaria.

Según el artículo Leveraging innovation technologies to respond to malaria publicado en el Malaria Journal, de las 650 innovaciones tecnológicas clave contra la malaria a inicios de 2023, el 34% son basadas en web, 28% en aplicaciones móviles, 25% en herramientas de diagnóstico y 13% en tecnologías basadas en drones. Entre ellas destaca el Malaria Atlas Project.

El proyecto en sí es desafiante.

II) La escasez de datos

Cada país y cada región tiene su propia base de datos. Su recolección requiere identificar muestras y ser ejecutada por instituciones especializadas de salud, investigación universitaria, ONGs y algunas empresas industriales. Es esencial contar con presupuesto. Y, en la medida de lo posible, esta recolección debería ser continua, cada uno o dos años. Aquí se abre la brecha entre países: no todos han podido hacer este levantamiento de manera continua y en un rango muy largo, como del año 2000 a la actualidad.

El objetivo del proyecto Omdena era desarrollar una aplicación innovadora impulsada por IA que emplea modelos predictivos y técnicas de pronóstico para mejorar significativamente los esfuerzos de prevención de malaria en Liberia, integrando tres funcionalidades clave:

1. Predicción de riesgo de transmisión de malaria: identificar áreas y poblaciones con alto riesgo de brotes, usando datos históricos, patrones climáticos y comportamiento humano.

2. Pronóstico de brotes de malaria: anticipar el momento y la severidad de futuros brotes, analizando datos en tiempo real sobre clima, poblaciones de mosquitos y movilidad humana.

3. Identificación de determinantes ambientales y sociales: examinar grandes conjuntos de datos para identificar los factores que contribuyen a la transmisión y vulnerabilidad.

¿Cómo asumir el reto?

Es importante recordar que más datos no siempre significan mejores modelos. A veces tener más datos puede llevar a overfitting: no queremos sobreajustar al set de entrenamiento y luego tener pobre desempeño en el de prueba.

Se descartaron técnicas de data augmentation y generadores de datos sintéticos. La primera transformaría la muestra; la segunda no se recomienda porque no identifica patrones estacionales.

En el portal TU Delft Research Portal se publica Is your dataset big enough?, donde recomiendan usar un tamaño mínimo de muestra de cincuenta veces el número de pesos en la red neuronal.

Sin embargo, si los datos de un año son suficientemente grandes, de alta calidad y representativos de la población objetivo, pueden bastar para entrenar un modelo preciso. Aunque en muchos casos, especialmente en series temporales, los datos tienen patrones estacionales que un solo año no captura.

Investigando, el equipo obtuvo datos significativos de fuentes internacionales que realizan recolección frecuente: The DHS Program, World Bank Data Catalog, The Humanitarian Data Exchange y Malaria Atlas Project.

A partir de aquí se descubrió que había datos por condados del país, y eso fue muy importante para decidir cómo aprovechar la información. Como comentó el líder Data Scientist Thomas James durante la presentación: ante los datos limitados, había que decidir entre datos a nivel de condado o nacional, y se enfocaron más en el nivel de condado; los condados resultaron determinantes clave de la prevalencia de malaria en Liberia.

Fue una gran decisión conjunta y un gran paso para seguir avanzando.

Se aplicó EDA examinando las intercorrelaciones de diversas mediciones de lluvia, dado que estos mosquitos se concentran en charcos de agua limpia en temporadas lluviosas. Se identificaron patrones de distribución con valores de muertes por malaria en correlación positiva.

El país está organizado en 15 condados y se descubrió que cada uno tiene experiencias distintas con la malaria, como muestran los casos y muertes en los condados Greater Kru y River Gee.

Usando los datos

Elegir el modelo tomó varios días de esfuerzo del equipo, hasta decidirse por Random Forest Regressor, después de aplicar la herramienta PyCaret.

Puntos clave — mejor modelo: Random Forest Regression (RFR). Los mejores scores: MAE 5.31e-13, MSE 6.93e-25, RMSE 8.33e-13.

La aplicación del modelo

El modelo brinda a los usuarios mayor comprensión de factores como las lluvias y las intervenciones de organizaciones de salud — que cubren IRS (Indoor Residual Spraying), ITN (Insecticide Treated Net) y tratamientos médicos — para mostrar cómo influyen en el número de casos y muertes por malaria en Liberia.

Prevalencia y costo de la malaria a lo largo de los años y a través de los condados, ayudando a informar estrategias de prevención y asignación de recursos.

Los detalles se pueden ver en la aplicación open source en Streamlit.

Tras ver cómo evitar la falta de datos, ahora hay material para desarrollar más temas: incorporar otras features como movilidad humana, temperatura, humedad, cobertura vegetal y factores socioeconómicos; integrar feeds de datos en tiempo real; y explorar CNN o LSTM que podrían capturar relaciones más complejas que Random Forest.

Reflexiones finales

Pude ser parte de este proyecto que me permitió aprender más sobre el día a día de un Data Scientist. Fue mi primer internship, así que puedo decir que superé mi transición de carrera.

Descubrí la funcionalidad y utilidad de los modelos de ML para desarrollar el proyecto; son tan variados y robustos que expanden las expectativas de lo que viene con estas herramientas. Vivien Siew me introdujo a PyCaret; lideró muy bien la aproximación a los modelos. Me encantó cómo organizaba Dorothea Paulssen. Agradezco el esfuerzo de Priyanka N. El Streamlit gestionado por Maria Loureiro fue muy nuevo para mí y lo consideraré en mis próximos proyectos.

En esta década nos toca ser los arquitectos al enfrentar diversos tipos de enfermedades con los recursos disponibles, e involucrar a más personas. Es muy importante persuadir a quienes toman decisiones en un país para aumentar el presupuesto en instituciones estadísticas.

Se pueden explotar otras fuentes de datos y saber entender qué relaciones son significativas, sin dejarse llevar por R² cercanos a 1.

Machine LearningRandom ForestPyCaretStreamlitSalud pública