Mucho se habla de Data Science, pero no todos tienen claro lo que realmente es.

Está más que claro que los datos están en todas partes, cualquiera que se haya enfrentado al mundo laboral te puede comentar que en su sector son múltiples los datos que se generan y sin duda son muchos más de los que teníamos hace 10 años atrás.

Las herramientas de análisis de datos están permeando todo, estos son algunos ejemplos:

  • En el sistema financiero se están creando herramientas de análisis de riesgo y fraude.
  • Se están creando mejores y nuevos tratamientos médicos investigando la población a través de diferentes técnicas.
  • Astrónomos, físicos, geólogos y prácticamente todos los investigadores de nuestras ciencias naturales están utilizando herramientas para entender mejor nuestro entorno.
  • Entidades estatales buscan evaluar el impacto de sus políticas públicas y proponen mejoras a través de análisis de la población.

Bueno, todos los ejemplos anteriores no son ninguna novedad. Siempre se han realizado análisis de resultados, predicciones, visualización de datos, procesamiento de información y más. ¿Por qué antes no hablábamos de Data Science? ¿Qué Cambió?

Respondiendo a la pregunta anterior, mucho cambió. Para el 2025, según datos de IDC, se estiman que tendremos 160 Zettabytes nuevos datos, 10 veces más que los 16 Zettabytes generados el 2016.

Para el que no le quedó claro

160.000.000.000.000.000.000.000
nuevos bytes de información

Lo primero que uno puede pensar:

  1. Las técnicas y sistemas tradicionales de análisis de datos no son suficientes para el procesamiento de toda esa información.
  2. ¿Por qué no dejar que los computadores hagan el trabajo por mi?
  3. Toda esa información no es la misma, allí tenemos: video, imágenes, datos de población, información médica, datos económicos, información de la bolsa, información de sensores en un campo, movimiento de las personas en la ciudad, posición de una estrella en el espacio, comportamiento de las personas en una red social, ventas anuales de una empresa, transacciones realizadas en un supermercado, … ¿Seguimos?

Entonces ya sabemos que hoy existen herramientas y técnicas para el procesamiento de esta información, no importa su formato. Por otra parte, contamos con la matemática como herramienta para el modelamiento de información, pero necesitamos de especialistas sectoriales que nos expliquen el comportamiento de esa información.

¿Cómo es eso? Yo puedo pasar años procesando datos del comportamiento de las hormonas en el cuerpo humano, pero si no tengo el conocimiento en Biología o Medicina, no es mucho lo que podré entender.

Por eso el diagrama presentado por Drew Conway para explicar lo que es Data Science nos ayuda mucho:

Lo primero que hay que entender entonces es que Data Science o la Ciencia de Datos es un campo interdisciplinario, donde conversan la Ciencias de la Computación (hoy los datos son digitales), la Matemáticas/Estadística (no nos liberaremos de ellas) y el conocimiento específico del campo que quiero estudiar.

Entonces,

  • ¿Es Data Science una ciencia? …no
  • ¿Es Data Science el mejor nombre? … probablemente no
  • ¿Vamos a seguir escuchando del concepto Data Science?… de todas maneras si
  • ¿Me sirve aprender Data Science?… voy a pensar que no me hicieron esta pregunta (Para los que no entendieron la ironía, la respuesta es si)

En este momento nos podemos preguntar: ¿Qué gano estudiando Data Science?

Lo primero que hay que decir es que la Ciencia de Datos es un mundo en sí mismo y existen una serie de subespecialidades dentro de ella. Escribiremos otro artículo en el futuro para hablar de esto.

Generalmente los cursos de Data Science asumen que el conocimiento específico en un área se tiene o se tendrá en el futuro. Es por esto que se centra en entregar los conocimientos tanto en herramientas computacionales, como los fundamentos matemáticos/estadísticos para esto.

Nuestro nuevo curso Fundamentos de Data Science, por ejemplo, es el primer paso del camino de la Ciencia de Datos, entrega de manera práctica los fundamentos técnicos y matemáticos para entrar al mundo, se aprende manejo de datos con Python, visualización, generación de reportes y modelamiento con enfoque hacia la Econometría y el Machine Learning. Es la primera etapa de nuestro Bootcamp Analista Data Science que busca entregar habilidades a las personas de Visualización de Datos, Modelamiento, Machine Learning, Big Data y más.

El Data Science es mundo apasionante y, sin lugar a dudas, cada día tomará un lugar aún más protagónico en los diferentes sectores de nuestra sociedad. Como les comenté no es solo cuestión de “computines”, sino que aquellos que venimos de otras áreas debemos adquirir estas habilidades para poder aplicar estas técnicas dentro de nuestros campos.