Blog

¿Qué es la extracción de datos y el análisis clúster?

data mining

Las habilidades de un analista de datos cada vez están más buscadas. Todos hablan sobre big data, machine learning y extracción de datos, y el “análisis clúster” o “clústeres”, ¿has oído hablar de este método en el análisis de datos? En este artículo, una de nuestras mentoras de datos, Violeta Mezeklieva, utiliza una analogía muy buena para explicar qué es el análisis clúster y cómo se aplica.

Imagina que una amiga se casa y te pide que la ayudes con la planificación. Estáis comentando la logística y empezáis a hablar de la cena. ¿Cómo se sentará la gente? Tu amiga sugiere agrupar a los invitados en mesas en función de si son miembros de la familia, amigos de la escuela, del grupo de la universidad, los simpáticos compañeros del trabajo, amigos del club de excursionismo, etc. Lo procesas y te das cuenta de que existe una oportunidad por explotar.

Las bodas pueden ser un desafío, especialmente cuando invitas a amigos y familiares que no se conocen. Y romper el hielo no es fácil. En lugar de agrupar a los invitados en función de “cómo se conocieron”, ¿por qué no hacerlo más divertido? Una buena manera de hacer que la gente hable sería resaltar aquello que los invitados tienen en común, especialmente si se van a conocer por primera vez, y agruparlos en las mesas de la cena en base a estos puntos en común.

En este momento de inspiración sugieres a tu amiga que en lugar de clasificar a los invitados en base a una condición predefinida, deberíamos utilizar machine learning para saber quiénes debería sentarse en la misma mesa. Tu amiga piensa que es una gran idea y tiene ganas de ver quién se junta con quien.

¡Qué emocionante! Lo que necesitas hacer ahora es crear un cuestionario para que los invitados lo rellenen antes de la boda. Las respuestas se analizarán con el algoritmo de machine learning perfecto para este caso: el clúster.

data mining

Lo que hará el clúster es encontrar puntos en común entre los invitados en base a las respuestas que hayan dado, hasta que definir qué les une. Entonces cada grupo se describirá en función de las particularidades que no comparten con los otros.

¿Cuántos clústeres deberían haber? Un buen punto de partida es descubrir cuántas mesas caben en la carpa. Si solo puede haber 15, el clúster deberá encontrar lo que une a los miembros de cada uno de los 15 grupos. Es posible que los grupos no sean tan diferentes los unos de los otros si los divides por este número. En este caso, puedes reducir la cantidad de mesas hasta que encuentres esa característica única. Puede que al final descubras que el problema sea el tamaño de la mesa. Pero ese es el problema del carpintero.

Con los clústeres tu amiga pudo descubrir algo que hubiera pasado por alto si hubiera segmentado a los invitados en función de lo que ella pensaba que les unía.

Genial. A tu amiga le encanta y tú tienes muchas ideas.

Como puedes ver, en Ubiqum Code Academy nos gusta pensar de forma original y hacer que conceptos y tecnologías que parecen complejas como el análisis clúster y la extracción de datos sean manejables.

También nos encanta hacer simulaciones. Una de tus primeras tareas será interpretar a un trabajador del Departamento de Datos de un E-commerce. Colaborarás con los departamentos de marketing y ventas para extraer información importante sobre tus clientes y presentarás la estrategia empresarial sugerida a tu CEO. ¿Tienes ganas de afrontar el reto de la inteligencia empresarial?

¡Permanece atento para más información sobre cómo utilizar tus habilidades de análisis de datos!