Un fin de semana de julio de 2018, en lugar de asarnos en el intenso calor del verano berlinés, 8 miembros del programa Análisis de Datos & Machine Learning de Ubiqum Code Academy en Berlín decidimos asistir a la “Data Science Sleepover” donde íbamos a utilizar machine learning para diagnosticar enfermedades.
El evento fue organizado por AIScope, una organización sin ánimo de lucro cuyo objetivo es utilizar machine learning para diagnosticar enfermedades como la malaria y la tuberculosis incluso en los lugares más remotos y de difícil acceso del mundo. El CEO de AIScope, Eduardo Peire, obtuvo bases de datos con información sobre registros de dengue y malaria en el Amazonas peruano. Las instituciones que habían recogido los datos del Amazonas no tenían la capacidad de analizar los datos ellos mismos, así que Eduardo y el resto del equipo de AIScope organizaron la Data Science Sleepover para reunir apasionados científicos de datos en Berlín e investigar los datos conjuntamente.
A pesar de que nadie llegó a dormir en la “Sleepover”, 25 de nosotros pasamos prácticamente desde el viernes por la noche hasta el domingo por la tarde juntos analizando datos y regresando a casa solo para dormir. El viernes nos presentaron a AIScope y la importancia del proyecto, y aprendimos más acerca de la malaria, el dengue y cómo se realizó la recogida de datos. Entonces nos dividieron en grupos de cuatro en función de nuestras preferencias de lenguaje de programación (una persona de Ubiqum acabó por accidente en un grupo de Python, no está muy claro lo que pasó allí…). Nos pasamos el resto de la noche conociéndonos mientras comíamos burritos y tomábamos unas cervezas.
Cuando llegamos al sitio el sábado por la mañana, tuvimos una rápida introducción a los principios del pensamiento del diseño (design thinking) y después llegó la hora de trabajar, trabajar y más trabajar. La exploración y visualización de datos es mi parte favorita del análisis de datos, así que decidí pasar todo el día haciendo eso. Otros miembros de mi equipo también siguieron un camino parecido. A pesar de que nuestras habilidades estaban a niveles diferentes, todos teníamos algo importante que aportar.
“Muchas veces podías ver a profesionales de la programación con una experiencia avanzada sentadas junto a personas con menos experiencia, dándoles consejos sobre cómo limpiar el código o escribir una función. Fue una experiencia de aprendizaje asombrosa.”
Durante este tiempo (¡de 9 de la mañana a 9 de la noche!) hice algunas visualizaciones que me ayudaron a entender lo siguiente:
– La calidad de los datos no era precisamente buena: solo había un par de años en los que parecía que los recopiladores de datos recogían información de forma consistente.
– Había más hombres en los registros hospitalarios: ¿quizás porque en esa región es más probable que los hombres vayan al hospital que las mujeres?
– El mes con más malaria en los registros hospitalarios era julio, justo después de la temporada de lluvias: probablemente porque los mosquitos ponen sus larvas en agua estancada durante la temporada de lluvias y después estas larvas se convierten en mosquitos que infectan a las personas tras la temporada de lluvias.
El domingo llegó el momento de unificar lo que habíamos hecho todos en una única narrativa. Después de devorar unas tortitas de plátano para desayunar, todos pusimos en común lo que habíamos hecho el día anterior. Una persona había marcado las áreas de la zona de estudio donde se habían encontrado larvas que habían dado positivo por dengue, y estaba intentando comprender si existían algunos factores relacionados con encontrar larvas con dengue en una ubicación concreta. Otra persona había construido un modelo para predecir si un individuo tenía dengue o malaria en función de su edad, sexo y ubicación.
Nos dividimos entre los que habíamos hecho visualizaciones temporales, geográficas y modelos predictivos, y empezamos a preparar nuestras diapositivas. Después lo presentamos e incluso representantes de Pfizer, Bayer, Dataconomy y Hella vinieron a presenciar qué habíamos encontrado en la base de datos.
Cuando terminó el fin de semana, todos sentimos que habíamos hecho algo que merecía la pena. Ganamos la experiencia inestimable de saber cómo es trabajar con datos del mundo real. La conclusión: los datos son desordenados e inconsistentes, pero si puedes encontrar una manera de trabajar con ellos, puedes extraer unos conocimientos interesantes.
Escrito por Ria V, analista de datos junior que recientemente terminó el programa de Análisis de Datos & Machine Learning de Ubiqum