Hace poco encontré esta cita en el libro Data Analysis as Art de Elizabeth Matsui y Roger D. Peng:
“El análisis de datos es difícil y parte del problema es que muy poca gente puede explicar cómo se hace. No es que no haya gente haciendo análisis con regularidad; es que la gente que es muy buena aún nos tiene que iluminar acerca del proceso mental que ocurre en su cabeza.”
Esta cita me parece fascinante y muy cierta. Y puede que sea cierta para casi todos los humanos. Después de todo, el lenguaje humano empezó a evolucionar hace solo 100.000 años y por ello es bastante habitual encontrarse con casos de mala comunicación.
Maneras en las que comunicamos descubrimientos
¿Cuántas veces leemos artículos periodísticos que nos proporcionan una observación que ha sido explorada, estudiada, analizada y explicada en un contexto en el que puede ser interpretada y, por lo tanto, entendida? ¿O que al menos nos ofrecen una perspectiva diferente? ¿Información de valor para aquellos que no han hecho la investigación o el análisis?
Tomemos como ejemplo los artículos científicos. Están llenos de conocimiento. Contienen tanta información y detalles sobre el proceso, las técnicas, los resultados, los datos, etc. que son un buen punto de partida para empezar a aprender. Pero a menudo es difícil entender la motivación subyacente de la investigación y comprender por qué deberíamos molestarnos en leerlo, o incluso, saber cómo debemos actuar después de conocer esta nueva información. Por supuesto este no es el caso de aquellas personas que trabajan en ese campo en particular, puesto que están acostumbrados a la jerga del sector y, seguramente, ya tienen alguna idea sobre el tema. ¿Pero qué gracia tiene eso? Claro que el trabajo es interesante y merece ser compartido, pero acceder y comprender este tipo de información no es fácil para todos, por lo que un artículo termina pareciéndose demasiado a una conversación privada.
Una correcta comunicación se produce cuando comprendes todo el contexto. Bueno, no todo el contexto, eso sería Big Data, pero al menos una muestra que represente este todo. Es entonces cuando la comunicación fluye y permite compartir conocimiento de forma elocuente.
Creo que, en general, somos incapaces de describir el proceso completo –el razonamiento que tiene lugar en nuestra mente– porque hay muchas dependencias, que en conjunto, nos llevan a plantearnos de nuevo la premisa principal. La solución: epiciclos de análisis.
Análisis de datos como comunicación
Si recuperamos Data Analysis as Art y echamos un vistazo a sus epiciclos de análisis, nos hacemos una idea del proceso que conllevan el análisis de datos y la demostración de una hipótesis.
¿Cómo funciona este sistema?
Desarrollar previsiones, recoger datos y unir las previsiones con los datos. Fácil.
En realidad no es tan sencillo. Un analista de datos tiene que plantear la premisa para poder evaluar si los datos recogidos son suficientes y, por lo tanto, cumplirán con las previsiones. Para ello, el analista lleva a cabo un análisis exploratorio y busca resultados iniciales, que le guiarán hasta cumplir con las expectativas. Con las conclusiones en la mano, el analista de datos construye modelos e interpreta sus resultados, primero desde un punto de vista estadístico y, después, revisándolos de nuevo para comprender la relación entre los resultados y la premisa inicial.
Como puedes ver, este proceso tiene muchas capas de análisis, que además están interconectadas. Todo esto es necesario para poder conseguir una forma elocuente de comunicación.
Es muy interesante llevar a cabo este proceso, especialmente si el analista tiene la oportunidad de conducir la investigación hacia un terreno que le resulte interesante. Cuando esto ocurre, la calidad de la información aumenta.
Si este proceso te parece un poco abstracto, piensa en lo que en otros sectores llaman “design thinking”. Los conceptos básicos son los mismos: evaluar si la premisa original / el producto original sirven o si todavía cumplen su propósito inicial. Ambas terminologías definen la necesidad de profundizar con el objetivo de comprender el origen de la curiosidad y darle significado. Y esto requiere tiempo. No se puede hacer rápidamente ni de forma automatizada, a menos que el concepto esté completamente desarrollado.
Asistí a una conferencia el otro día sobre cómo adaptar un negocio a la práctica del Desarrollo y Operaciones (DevOps por sus siglas en inglés) o Cultura Agile. Una persona del público preguntó por qué no existe un proceso para evaluar la rapidez en la que puede programar un humano. Su intervención me llamó la atención porque parecía que su conclusión fuera que necesitamos que la gente programe con más rapidez para hacer un trabajo mejor y ser ágiles. Esto es un poco engañoso y no tiene en cuenta el proceso que lleva a cabo un analista de datos para hacer su trabajo de forma eficiente.
Un científico de datos tiene muchas cosas en la cabeza y programar con más rapidez no solucionará el problema. No se trata de la velocidad, se trata de lo bien que el analista de datos pueda comprender lo que quiere el cliente, evaluar si lo puede hacer con unos datos determinados y si puede proporcionar al cliente un plan de acción viable.
Como puede observarse en el diagrama de más arriba, el proceso de análisis de datos es muy meticuloso y las habilidades de programación son, de hecho, secundarias. Todo se reduce a la comunicación: si un cliente comprende y explica bien lo que quiere, el científico de datos podrá cumplir con su tarea.
Como mentor, animo a mis estudiantes a comunicar la esencia del proyecto en el que están trabajando y a repasar si estos objetivos cumplen con las previsiones. Dedicar tiempo a pensar cómo cumplir, o mejor dicho, cómo comunicar, merece la pena, y por este motivo los estudiantes repasan este proceso en cada una de las cinco presentaciones que realizan durante los cinco meses que dura nuestro programa de Análisis de Datos y Machine Learning. El objetivo es prepararlos completamente para sus futuras carreras profesionales como analistas de datos, durante las cuales tendrán que presentar sus resultados a un consejo de administración o a clientes externos.
Se observa una curva de aprendizaje interesante en cada estudiante y nosotros estamos aquí para ayudarles a superar los “fracasos” iniciales. De hecho, creemos que “fracasar” es una parte crucial del proceso de aprendizaje.
No todas las personas son comunicadores naturales, sin embargo, en el programa de análisis de datos aprenderás esta importantísima habilidad, además de todo lo necesario para ser un analista de datos altamente competente.