Transformación digital y la gran cantidad de datos.

La mayoría hemos escuchado o leído que estamos en la era digital, y es que la transformación de gran parte de los servicios que usamos a diario se amparan en lo tecnológico, por lo que en gran medida es así. La tecnología nos permite automatizar procesos, optimizar servicios y recursos e incluso entender fenómenos que antes nos eran ajenos o eran parte de cierto grupo especializado. El uso masivo de tecnología a distintas escalas (tanto personal como el uso de redes sociales hasta gigantes como Amazon o Google) trae consigo la aparición de gran cantidad de datos de distinta índole y la producción de éstos van al alza, según el World Economic Forum solo en este 2020 habrá 40 veces más bytes de datos digitales que estrellas en el universo observable.

Esta nueva era nos demanda estar al tanto de las nuevas formas de trabajo y de adquirir las habilidades digitales necesarias que el mercado laboral actual está requiriendo. Estas nuevas necesidades de formación de capital humano con competencias  tecnológicas en el marco de la transformación digital en Chile, ha permitido la creación de nuevos perfiles técnicos y profesionales que permitan suplir estos nuevos requerimientos, sin embargo, actualmente existe un déficit de profesionales tecnológicos que cubran la alta demanda en distintas áreas y líneas de acción. Esto ha permitido la adaptación de profesionales de distintas áreas re-convirtiéndose laboralmente en perfiles TI, que además de aportar con su nuevo conocimiento tecnológico, incorporan en su quehacer, su experiencia previa y el dominio de su formación de base.

Sin ir más lejos, la actual pandemia de COVID-19 ha permitido -y forzado- a innumerables empresas, negocios e industrias a reinventarse y reconvertir sus funciones y metodologías para mantenerse activas, implementando herramientas y estrategias digitales. Gran parte de ellas se vieron en la necesidad de adquirir servicios y  personal capacitado en áreas que permitieran, por ejemplo, el teletrabajo con herramientas colaborativas para el trabajo en equipo, implementación de pagos electrónicos, e- commerce, canales de información eficientes entre el cliente y la empresa/negocio, mecanismos de marketing digital, implementación de sistemas de seguridad para sus datos e infraestructura tecnológica. Cada uno de estos servicios genera datos que son necesarios analizar para ser transformados en información que pueda ser valiosa para la empresa. Aquí es donde entra la ciencia de datos.

¿Qué es data science?

La ciencia de datos o data science como tal, surgió a comienzos de los años 2000, y es -tal como su nombre lo indica-  la ciencia que se centra en el estudio de los datos.  Combina áreas como la ciencias de la computación, programación, matemática y estadística con cualquier otro  dominio y se encarga de extraer información útil de los datos mediante el uso de algoritmos de aprendizaje estadístico, análisis descriptivo de datos y métodos clásicos econométricos con el fin de  entender fenómenos y tomar decisiones.

La ciencia de datos es un área que permite desarrollarse en distintos campos, y  como bien hemos dicho, ésta estudia los datos y los datos están en todos lados, algunos campos donde se puede aplicar data science son: ciencias naturales y ambientales, banca, medicina y salud, arquitectura, construcción, diseño, retail, marketing, selección de personal, educación, ciencias de la tierra, industria alimentaria, comunicaciones, publicidad, entre otras. Como podemos ver, el alcance del estudio de los datos es muy amplio y las fuentes de obtención de datos es igual de diversa. Al tener datos, se necesita de profesionales que sean capaces de tomar estos datos, limpiarlos, manejarlos e interpretarlos dándoles valor; esto permite, por ejemplo, anticiparse a sucesos y predecir comportamientos.

¿Qué hace un data scientist?

Un profesional científico de datos se especializa en la interpretación de los datos, construye algoritmos y genera visualizaciones extrayendo conocimiento de manera organizada. Se apoya en herramientas tecnológicas, lenguajes de programación como Python o R (dos de los lenguajes más utilizados para data science), conocimientos matemáticos y estadísticos que permitan plantear y comprender los modelos a implementar y en el dominio en el cual se está trabajando.

Ahora que ya tenemos más claro el concepto de data science, vamos a aclarar algunos otros conceptos que seguramente has escuchado: ¿Inteligencia Artificial? ¿Machine Learning?  ¿Deep Learning? ¿Big Data?  

El término de inteligencia artificial no es nada nuevo, acuñado inicialmente en 1956 por John McCarthy para diferenciar los estudios que intentaban replicar el comportamiento humano, del campo de la cibernética. Actualmente es el concepto más amplio, general y comúnmente ocupado en la prensa incluyendo, -dentro de su concepción actual- a muchas otras disciplinas nacidas más recientemente como el aprendizaje de máquina (machine learning), optimización combinatorial, agrupamiento o clustering y aprendizaje profundo (deep learning), incluso se utiliza para referirse a una idea vaga de “algoritmo” o procedimiento avanzado de aprendizaje que permite generar un producto que da la impresión de ser inteligente.

El aprendizaje de máquina, permite generar modelos que extraigan patrones, prediciendo y/o clasificando a partir de datos. El aprendizaje profundo, es una técnica más avanzada de machine learning inspirado en cómo nuestro cerebro procesa la información. Cuando hablamos de Big Data, nos referimos al problema del manejo y procesamiento de grandes volúmenes de datos y a las tecnologías e infraestructuras que permiten almacenarlos, tratarlos y analizarlos. 

Ciencia de datos, análisis de datos, inteligencia de negocios e ingeniería de datos.

En el campo laboral actual chileno e incluso en el internacional, la línea divisoria entre lo que hace un data scientist con otro profesional que trabaje con datos no está completamente definida. Es común encontrarse con avisos de ofertas laborales en donde se requieren “data scientist” que manejen una gran cantidad de herramientas de análisis y visualización de datos, variados lenguajes de programación focalizados en desarrollo de software, extracción de datos, creación de flujos de información e incluso de infraestructuras. Y es que como aún es un área incipiente en Chile, no todos los reclutadores de perfiles TI  manejan las diferencias entre un perfil y otro. Es por esto, que considero adecuado precisar algunas diferencias, que -a modo personal- pueden ayudar a clarificar el alcance de estos perfiles. 

La ciencia de datos, se enfoca más en la investigación y extracción de patrones. Formula y prueba hipótesis sobre fenómenos aleatorios con el fin de ser capaces de predecir aspectos con algún objetivo claro. 

El análisis de datos, está enfocado en el análisis exploratorio y descriptivo de la información, no necesariamente probar hipótesis, pero sí ganar contexto sobre el fenómeno a partir de lo que ha ocurrido. 

La Inteligencia de Negocios, es un proceso altamente guiado por la tecnología para

analizar información de procesos de negocios con el fin de apoyar decisiones ejecutivas.

La Ingeniería de Datos, Se enfoca en aplicaciones prácticas para la construcción de flujos de información y facilitación de la misma hacia los sectores que se requieran en la organización.

Para tener una idea de los alcances y el estado del data science en Chile y el mundo en el mercado laboral podemos revisar algunos datos interesantes que arrojaron dos encuestas: (1) State of Data Science and Machine Learning 2017/2018/2019 – Kaggle y (2) Encuesta de Roles y Lukas 2018 – Grupo Big Data & Data Science Chile (Facebook).

La encuesta de Kaggle, para el contexto de Chile, señala que los niveles de estudios que poseen las personas que se dedican a la ciencia de datos son mayoritariamente grados de máster, seguido por un professional degree  y muy cercano a este segundo puesto, las licenciaturas. Los profesionales con grado de magíster en ciencia de datos que trabajan en esta área han ido en aumento desde el 2017 y es por lejos el nivel educativo predominante. Muy contrariamente los doctores son la minoría y se ha mantenido constante la incorporación de ellos, al igual que los licenciados y grados profesionales.

A nivel mundial, las carreras estudiadas por los encuestados corresponden principalmente a ciencias computacionales, ingeniería, matemáticas y un número no muy menor de otras disciplinas como ciencias sociales, humanidades y ciencias médicas. Chile, presenta tendencias muy similares al resto del mundo donde hay un predominio de carreras STEM (Science, Technology, Engineering and Mathematics) en los primeros lugares, con áreas de formación en ciencias computacionales (programación, computación, software, sistemas, informática), seguido por formación en área industrial, comercial, biología, química y mecánica. Sorprendentemente los encuestados con formación en matemáticas y estadística no encabezan las cifras.

Otro aspecto interesante a mencionar es en qué sectores se está realizando ciencia de datos, tanto en Chile como en el mundo, hay gran presencia de la Academia/Educación, esto es muy relevante ya que nos muestra que gran cantidad del trabajo de data science se realiza en ambientes no económicos o de negocios, sino que en aulas, laboratorios y en contextos de experimentación, dando valor también al aspecto teórico del área. Siguiendo esta misma línea, otro sector muy preponderante son los estudiantes, esto evidencia que el área está en pleno desarrollo y crecimiento, en donde el proceso formativo para poder desempeñarse como científico de datos está muy vigente y masificada a nivel global. El sector de computación y tecnología, como podría esperarse, es también uno de los sectores que tanto en Chile como a nivel mundial posee gran presencia, posiblemente porque está ligada más estrechamente a las tecnologías e infraestructuras que trabajan directamente con el tratamiento de los datos y en donde inicialmente se inició el data science. 

Cabe destacar que en Chile los sectores de finanzas, retail, minería y energía, también muestran presencia en el campo de la ciencia de datos, justamente estas son áreas ligadas a las actividades económicas más relevantes de nuestro país. Sería interesante poder ahondar más en esta relación y cómo podría ir en influyendo el data science sobre éstas durante los próximos años.

A nivel global, se observa también la presencia de sectores como la medicina y farmacia, área que a nivel local no se declara directamente; esto podría deberse a que los avances en estos campos en Chile están amparados bajo el alero de la Academia, pudiendo estos trabajos estar en fases de investigación y desarrollo, más que implementado en la industria.

Respecto al sector en donde se desempeña la mayoría de los científicos de datos en Chile, corresponde al sector privado, correspondiente al 70% de las opciones a la pregunta ¿En qué sector trabajas actualmente o cuál fue tu último trabajo? seguido por la Academia o Institutos de Investigación con el 21% y en muy menor medida el Sector Público. Como podemos ver, el sector privado aún domina en uso de tecnologías y roles asociados a la ciencia de datos. Sin embargo, esto actualmente está cambiando, ya que hay iniciativas públicas actuales ligadas a la incorporación y fortalecimiento de la tecnología, como lo es “La Política Nacional de Inteligencia Artificial”, impulsada por el Ministerio de Ciencia, Tecnología, Conocimiento e Innovación, la cual contendrá los lineamientos estratégicos que debe seguir el país en esta materia durante los próximos 10 años. Esta política es un proceso que incluye la opinión de la ciudadanía, donde cualquier persona y organización puede contribuir con su experiencia, opinión y comentarios; el documento y su Plan de Acción se debería publicar a finales de este año 2020. 

Según la encuesta de Roles y Lukas, en Chile el rol más frecuente con que se identificaron los encuestados según su trabajo actual o anterior, corresponde a quienes desarrollan labores de: Visualización de Datos, Analista de Datos, Generación de Reportes, Business Intelligence (BI) y Data Mining, ocupando el 35.5% de las preferencias. Estas labores, principalmente las relacionadas a la visualización y análisis de datos, como también reportería, son una de las más demandadas en el campo laboral actual, ya que permite tener claridad de los datos que posee la empresa haciéndolos fáciles de reconocer y entender, además es posible utilizar herramientas de software que apoyan a que esta tarea sea accesible y llamativa.  Es interesante mencionar que estas tareas no son propiamente tal desarrolladas por perfiles con estudios en informática o ciencias computacionales necesariamente a diferencia de cargos como Data Architect, que requieren una formación más dura en aspectos de infraestructura. Las labores de Data Scientist aparecen con el 24.1% de las preferencias, y ya bastante más alejado se encuentra el rol de Desarrollador de software, programación, analista de software, con el 13.3%.

Como hemos visto, el data science es una ciencia multidisciplinar en donde se requieren personas con conocimientos en todos los dominios y en donde no necesariamente se debe venir con un background de programación o matemático. Es por ende, una buena oportunidad para sacar ventaja competitiva entre sectores de distintas áreas: públicas, privadas, academia, ONGs y distintas escalas: grandes y medianas empresas así como startups, por lo que es un buen incentivo para distintas organizaciones adoptar la ciencia de datos más temprano que tarde y esto es así a nivel mundial. Según varias fuentes importantes internacionales como Harvard Business Review esta es la profesión más sexy del siglo XXI principalmente por dos motivos: existe una alta demanda ya que las empresas requieren de los datos y su analítica para predecir el futuro de su industria y también por los sueldos bastante atractivos. Esto ha hecho que a nivel nacional, se esté invirtiendo fuertemente en capacitación de capital humano a personas con y sin background previo en computación e informática con el fin de suplir la demanda de estos nuevos perfiles TI que el Chile -y mundo- de hoy está requiriendo.