¿Qué necesito aprender para ser un profesional en Big Data?

octubre 26, 2015
carreras en big data
Cada vez que enviamos un email, un whatsapp, hacemos un clic, compramos algo online, publicamos un tweet o actualizamos nuestro estado en Facebook estamos generando datos. Teniendo en cuenta que ya hay más de 3.200 millones de usuarios de Internet en el mundo, cantidad que se triplica cada 9 años, que hay ya más de 1.750 millones de usuarios de smartphones, hablamos de unas cantidades de datos gigantes. ¿Qué hace falta para llegar a ser un profesional de los datos?

Afortunadamente, el incremento exponencial de la cantidad de datos ha venido acompañado por un avance paralelo en la capacidad de recoger, organizar, tratar y analizar los datos. El coste de almacenamiento de datos es cada vez más económico, la potencia de procesamiento es varios múltiplos de lo que era hasta hace pocos años, y las herramientas para manejar los datos son más accesibles que nunca. Estamos hablando de zetabytes de datos disponibles para extraer de ellos inteligencia de negocio. Hemos visto en otros artículos, como el análisis de datos ha permitido desde predecir comportamientos bursátiles, éxitos de taquilla, prevenir incendios o seleccionar a jugadores de beisbol más rentables.

Todo el trabajo de tratamiento necesario requiere un ejército de expertos en datos.  Traducción: nunca ha sido un mejor momento para seguir una carrera profesional relacionada con data. El sector TIC va a tener un déficit en Europa de 800.000 trabajadores especialistas en tecnología para 2020. El primer paso para tomar el camino para  convertirse en un mago de los datos es ver cuál es el camino profesional más adecuado.

Data Analyst

Un data analyst (analista de datos) esencialmente es un data scientist junior. Es la posición laboral de entrada en una carrera relacionada con Big Data. Los analistas no tienen el background en investigación o conocimientos avanzados en matemáticas para inventar nuevos algoritmos de Machine Learning por ejemplo, pero deben poseer una comprensión de cómo usar las herramientas para solucionar problemas de negocio.

Habilidades y herramientas

Los analistas de datos deben tener una base de habilidades y conocimientos de herramientas técnicas en programación, estadística, machine learningdata munging y visualización de datos. Además de las habilidades técnicas deben ser minuciosos en los detalles,  tener capacidad de presentar los resultados de forma clara y concisa. Con el tiempo, dedicación y apoyo de analistas más experimentados  deben ser capaces de adquirir, procesar y resumir conjuntos de datos. Los data analysts son los encargados de gestionar el control de calidad del raspado de datos, normalmente se encargan de realizar las queries que necesitan en cualquier departamento de la empresa, y resolver problemas relacionados con datos escalonando y priorizando recursos. También este tipo de perfil profesional es el encargado de empaquetar los datos para presentar la inteligencia de la información extraída de una forma narrativa o visualmente comprensible por compañeros de otras áreas no expertos en datos.

Los profesionales que siguen esta ruta deben sentir pasión por la exploración de datos, aprendiendo mosaicos de datos, teoría de base de datos,  lenguajes como JavaScript, o visualización de datos.

 

Profesional Data Scientist

Aunque los analistas de datos y data scientists comparten la mismo objetivo en la empresa, que es obtener inteligencia e ideas de los lagos de datos disponibles, el trabajo de los data scientists requiere de unas habilidades especiales más sofisticadas para manejar tanto el volumen como la velocidad de los datos. Un data scientist debe ser capaz de llevar a cabo investigaciones no dirigidas y llegar a formular cuestiones y problemas complejos. Los data scientists normalmente son graduados en campos cuantitativos como ciencias de la computación, física, estadística o matemáticas aplicadas, y poseen los conocimientos para inventar algoritmos que resuelvan problemas con los datos.

Estos científicos de datos son extremadamente valiosos para las empresas que los contratan, ya que pueden descubrir nuevas oportunidades de negocio o ahorrar a la empresa mucho dinero mediante la identificación de patrones en los datos. Por ejemplo, destacando comportamientos de los clientes pueden ayudar a identificar fraudes potenciales, o predecir qué productos van a tener más éxito para estar prevenidos en stock.

Habilidades y herramientas

Un data scientist debe explorar los datos desde diferentes facetas y ser capaz de extraer datos de diversas fuentes. Usan herramientas como Hadoop (el framework de sistema de ficheros  más extendido para procesamiento de datos distribuidos), lenguajes de programación como Python o R, y aplican prácticas fundamentales de estadística, probabilidad, model building y matemáticas avanzadas.

El conjunto de skills necesario varía dependiendo de empresa y proyecto, pero este ejemplo del Data Science London nos da un a muestra de lo complejo que puede llegar a ser el abanico de herramientas de un profesional data scientist.

 

herramientas para profesionales en ciencia datos

 

Imagen via Data Science London

El skill no técnico más valioso  que puede aportar un data scientist es una inmensa curiosidad. Estos profesionales deben estar obsesionados con formular hipótesis que resulten en soluciones apoyadas en la información extraída y que permitan transformar su negocio.

Me encanta el poder de las métricas y realizar tracking del comportamiento de usuarios porque me da la oportunidad de testar intuiciones personales y luego tener resultados empíricos que permiten a nuestro equipo tomar decisiones basadas en datos y así mejorar continuamente nuestro producto Gaëlle Recourcé, CSO at Evercontact

En esencia, los científicos de datos aprovechan los datos para solucionar problemas de negocio. Interpretan, extrapolan y prescriben a partir de datos para facilitar recomendaciones que puedan ser tomadas. Un analista de datos  realiza resúmenes de lo que ha pasado, un data scientist realiza estrategias para predecir el futuro, y con el tiempo normalmente se especializa en un área específica.

Los científicos de datos deben ser capaces de poder identificar exactamente cómo optimizar negocios online para retener a los mejores clientes, cómo  lanzar productos para un conseguir el mayor valor en el ciclo de vida de los clientes, o cómo ajustar procesos de distribución para lograr los mejores tiempos con los mínimos costes y pérdidas.

Profesional Data Engineer

Un ingeniero de datos es capaz de construir canales de datos en arquitecturas robustas y tolerantes a fallos, que sean capaces de sostener, limpiar, transformar y agregar diferentes fuentes datos en mezclas de bases de datos. Los data engineers son normalmente ingenieros de software, responsables de compilar e instalar sistemas distribuidos, procesamiento en paralelo, crear bases de datos, programar queries complejas, realizar escalados multi-máquinas, y tener sistemas de recuperación de datos al día.

Los ingenieros de datos esencialmente sientan las bases para que los analistas de datos o data scientists puedan acceder fácilmente a los conjuntos de datos necesarios para su revisión y formulación de experimentos.

Habilidades y herramientas

Mientras que los analistas de datos se encargan de extraer valor de los datos, los ingenieros de datos son responsables de asegurar que los datos fluyen sin incidencias desde las fuentes hasta los destinos de tal forma que puedan ser procesados. Por tanto, los ingenieros de datos deben tener un conocimiento profundo y experiencia en las siguientes tecnologías:

  • Tecnologías basadas en Hadoop como MapReduce, Cassandra, Hive o Pig.
  • Tecnologías basadas en SQL como PostgreSQL o MySQL
  • Tecnologías basadas en NoSQL como Cassandra o  MongoDB
  • Soluciones en Data Warehousing

 

mis responsabilidades varían desde el diseño de la arquitectura del sistema y sus módulos hasta la implementación de los algoritmos, y los requerimientos de infraestructura Dmitry Novikov, Ingeniero de Datos

Los ingenieros de datos se encargan del trabajo detrás del escenario que normalmente no se ve pero sin el cual los ingenieros de datos no podrían realizar su trabajo. Esta infografía muestra las diferencias entre ingenieros de datos y data scientists.

 

diferencias-data-scientist-data-engineer

Imagen via Data Science 101

Según Chris Beland, que dirige el equipo de ingeniería de datos de la empresa Allclasses, describe así qué hace su equipo, porqué es importante y porqué le encanta:

«En mi trabajo diario, realizo un montón de NLP (procesamiento de lenguaje natural), convirtiendo contenido web semi-estructurado comprensible por personas en contenido altamente estructurado comprensible por máquinas y almacenado en bases de datos. Lo que más me gusta es enseñar a las máquinas algo concreto sobre el mundo real, como por ejemplo, cómo escriben los humanos las fechas de los calendarios y qué significan, o cómo el universo de temas se pueden descomponer en categorías y subcategorías. Entonces es cuando creamos algoritmos para que el sistema pueda explotar ese nuevo conocimiento, pudiendo analizar y clasificar textos y darle sentido un poco como lo haría un humano. Me siento un poco como un padre orgulloso al comprobar cómo la base de datos resultante da al programa una caricia virtual para obtener todas las respuestas correctas, a pesar de tratar con una gran cantidad de entradas no previstas, y con un clic los resultados parten a las personas que lo necesitan».

Hay muchas opciones a la hora de tomar el camino profesional relacionado con los datos. Si estás interesado en dedicarte al big data profesionalmente son tres los perfiles demandados: analista de datos, data scientist e ingeniero de datos.

Los profesionales del tratamiento con datos han derivado en tres disciplinas más especializadas, similar a la especialización que ocurrió en otros campos como la medicina, ahora tenemos doctores en medicina general, cirujanos y neurocirujanos. Lo mismo ha pasado con los datos.

What do you think?

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

More notes