Tendencias Big Data

Iñaki Ladrero

hace 8 años

Cerrando el último trimestre es buen momento para hacer balance de lo que ha sido el año y evaluar lo que nos espera el 2017 en el espacio del Big Data Analytics. Aunque nadie puede predecir cuales serán los temas más calientes sí podemos repasar en este artículo cuáles son las últimas tendencias en big data.

los LÍDERES EN BI SE DESINFLAN

Varios de los líderes en BI y herramientas de visualización han tenido su annus horribilis. Ya al comienzo de año se veía cómo de complicado sería el año para este sector, Tableau perdió la mitad de su capitalización bursátil en un sólo día después de presentar unos resultados financieros que decepcionaron a los inversores. Pocos meses después Qlik fue adquirida, después de perder más de la mitad de su valor en el Nasdaq, por la firma de inversión Thoma Bravo que pagó 3.000 millones de dólares. El mercado de BI se ha ido fragmentando a medida que otras de las grandes como Microsoft o Microstrategy han sacado nuevas alternativas menos costosas (también menos funcionales). Y nuevos players como Alteryx, Domo, Birst, Sisense o Gooddata han emergido al mercado. Gartner después de analizar a más de 24 empresas de BI en su cuadrante mágico llegó a decir que el mercado de BI ha alcanzado «Un punto de inflexión que requiere una nueva perspectiva».

AUGE DE LA INTELIGENCIA ARTIFICIAL

Cuando la plataforma DeepMind adquirida por Google venció al mejor jugador humano del juego milenario Go, quedó claro que estamos asistiendo al Big Bang en lo que a inteligencia artificial (IA) se refiere. Desde chatbots como Siri de Apple o Alexa de Amazon, a coches autónomos, millones de usuarios han comenzado a disfrutar de las ventajas de un buen uso de la IA.

También hemos visto el lanzamiento de nuevos servicios como Amazon AI lanzado hace un mes. O noticias sobre hacia donde se dirige el talento en cuanto al desarrollo: la universidad de Berkeley, anunció en octubre que el prolífico equipo de AMPlab que nos ha dado maravillosas plataformas de big data como Apache Spark, será reemplazado por RISELab que en parte se centrará en IA y sus aplicaciones como vehículos autónomos. Poco a poco se hace más evidente que la noción de inteligencia artificial irá acaparando y tomando el control de big data como concepto.

HADOOP CUMPLE UNA DÉCADA

En enero se cumplió el décimo aniversario del lanzamiento en producción del primer cluster Hadoop por parte de Yahoo. Sus ingenieros, que por entonces eran felices si su cluster de diez nodos corriera continuamente durante 24 horas, no podían llegar ni siquiera a imaginar en qué llegaría a convertirse su criatura, casi sinónimo hoy día de computación big data, desplegada en mayor o menor medida en los sistemas informáticos de las mayores empresas del mundo. Bien es cierto que comienza a haber discusión si Hadoop ha tocado techo y si la versión 3 en desarrollo que promete doblar la capacidad de almacenamiento y habilitar la codificación de borrado será suficiente al ritmo acelerado de la evolución de plataformas big data.

APACHE SPARK DOMINA

El enfoque abierto y económico de computación distribuida de Hadoop captó la atención de los profesionales con necesidad de procesar enormes data sets que hasta el momento dependían de un software propietario demasiado caro. Pero si la plataforma basada en Java está empezando a atenuarse, no es sino porque hay una nueva estrella capaz de deslumbrar aún más. El ascenso meteórico de Apache Spark está siendo muy interesante de analizar. Especialmente cuando los grandes de la industria como IBM lo han adoptado como parte estratégica de su arquitectura de servicios, o casi todas las herramientas de BI y visualización usan la tecnología in-memory de Spark para procesar trabajos en streaming, interactivos o en batch. Muchos piensan que pronto Spark rebasará a Hadoop en popularidad.

LA BATALLA DE LOS FRAMEWORKS: FLINK y BEAM

A pesar de que Spark prácticamente ha reemplazado a MapReduce como motor de procesamiento batch (sin contar las capacidades de Spark en SQL, Machine Learning y streaming), la comunidad big data no tiene suficiente e intenta mejorar el framework basado en Scala soportado por Databricks. Nuevos desarrollos como Apache Flink y Apache Beam están tomando mucha fuerza como competidores de Spark en la batalla de frameworks big data. Incluso el principal arquitecto de Cloudera afirmó que la arquitectura de Flink es aún mejor que la de Spark. Como siempre, en la variedad está el gusto, y qué mejor que contar con diversas opciones ya que no será siempre la misma la mejor en todas las circunstancias. Beam está basado en Dataflow, el API de Google Cloud, y pretende unificar los desarrollos de aplicaciones en big data bajo un único API que permita trabajar con Spark, Flink o Dataflow.

ATAQUES DE SEGURIDAD

El que los datos proporcionan valor es algo que claramente ya nadie discute, por lo que no es ninguna sorpresa que «los malos» quieran robar datos. Este año hemos asistido a brechas de seguridad de muy alto nivel. Desde los famosos servidores de email del partido demócrata estadounidense supuestamente hackeados por rusos a la confirmación por parte de Yahoo de la intrusión que dejó al descubierto datos de 1.000 millones de sus cuentas, después de reconocer otra filtración en septiembre de 500 millones de usuarios. En el medallero de la vergüenza se encuentran también el Departamento de Justicia americano (que perdió datos de 30.000 empleados del DHS y el FBI), el IRS (Hacienda de EEUU) con registros de 700.000 contribuyentes, Oracle (330.000 cajas registradoras hackeadas), Verizon (1,5 millones de registros de cuentas de clientes), Dropbox (admitiendo robos de 68 millones de cuentas), AdultFriendFinder.com (412 millones de registros de clientes), y un sinfín de casos más.

nuevas Startups especializadas en datos

Aunque las inversiones en capital riesgo bajaron un 10% desde 2015, el empuje de emprendedores en tecnologías relacionadas con el dato no ha bajado un ápice. Entre las startups más novedosas que hemos visto este año en tendencias big data podemos identificar:

SnappyData, enfocados a unificar Spark y el data grid GemFire de Pivotal.
Panoply, creando software ETL para usuarios de AWS Redshift.
Cosmify, está utilizando aprendizaje automático para minería del conocimiento de clientes.
Bonsai, especializados en IA.
Armorway, utilizando deep learning para temas relacionados con ciberseguridad.
Leyvx, que está unificando Flash con Spark.
Jask, utilizando IA para análisis de ciberseguridad.
Alluvium, pretende cerrar el hueco de máquina a humano.
Pachyderm, especializada en contenedores.
Skry, con soluciones relacionadas con inteligencia y blockchain.
Wavefront, que utiliza big data para monitorizar sistemas.

Proyectos Open Data

No todos los esfuerzos y productos en torno al big data buscan una compensación monetaria. De hecho, muchas de las tecnologías más prometedoras vienen de diferentes proyectos open source. Entre los proyectos que más han salido en los medios especializados del sector encontramos:

Apache Arrow. Este proyecto, encabezado por un arquitecto de MapR Technologies, busca crear una capa de datos común que trabajará con una gran variedad de herramientas y motores de datos, como Drill, Spark, Impala, Cassandra y Parquet.
Alluxio. Sistema de ficheros en memoria salido del AMPLab, creadores también de otros proyectos Apache como Spark y Mesos.
Apache Beam, su ambicioso objetivo es crear un API unificado para procesamiento en tiempo real, interactivo y batch.
CrateDB: es una base de datos escalable (NewSQL) bajo licencia Apache 2.0 para machine analytics en tiempo real.
Apache Kylin: Solución OLAP sobre Hadoop de código libre.
Apache Geocode: Base de datos distribuida con capacidad de trabajo in-memory basada en Gemfire de Pivotal.

No podemos conocer con certeza lo que el 2017 nos deparará pero siguiendo las tendencias de big data actuales tenemos un panorama de crecimiento continuado, sorpresas espectaculares y avances inesperados en las tecnologías y cómo nuestras vidas están cambiando con ellas.