Revolucionario. Este es el panorama actual en cuanto al análisis de datos en la que vivimos. Las empresas se han visto inundadas con enormes cantidades y variedad de datos por un lado, y por otro, se han elevado las expectativas para el análisis de los mismos en el menor tiempo posible. La oferta de proveedores está respondiendo proporcionando arquitecturas altamente distribuidas, y nuevas soluciones referentes a niveles de memoria y potencia de procesamiento. Startups especializadas también explotan el modelo de licencias de código abierto, que no es nuevo, pero está cada vez más aceptado e incluso buscado por los profesionales en gestión de datos.
10 Herramientas Big Data Analytics
Hadoop
La popularidad de este ecosistema puede ser entendido por el hecho de que Hadoop y Big Data se han utilizado hasta ahora casi como sinónimos. La biblioteca Hadoop ofrece un framework que utiliza modelos de programación simples para el procesamiento distribuido de un gran conjunto de datos a través de varias máquinas conectadas. Fue diseñado para superar fallos y errores en la capa de aplicaciones, proporcionando de este modo una alta precisión. Hadoop, fue la plataforma de procesamiento de datos pionera en Big Data, empezó hace nueve años, con licencia de código abierto y utilizada por gigantes de Internet como Yahoo y Facebook. Hadoop sigue liderando la revolución de datos masivos pero ya ha sido desbancada en capacidad y rapidez de procesamiento en determinadas situaciones por otras plataformas como Spark. Cloudera introdujo soporte comercial para las empresas en 2008, y MapR y Hortonworks se apuntaron al carro en 2009 y 2011, respectivamente. Entre los grandes en gestión de datos, IBM y Pivotal (spinout de EMC) presentaron sus propias distribuciones de Hadoop. Microsoft y Teradata ofrecen también software relacionado y líneas de apoyo técnico y comercial para la plataforma Hortonworks. Oracle revende y apoya Cloudera, mientras que HP, SAP y otros actúan más con una estrategia de diversificación, trabajando con varios proveedores Hadoop al mismo tiempo.
Mapreduce
MapReduce es un motor computacional que permite una escalabilidad descomunal a miles de servidores en un cluster Hadoop. Literalmente, MapReduce se divide en dos términos, «Mapa» y «Reducir». «Mapa» viene a ser la conversión de un dataset en otro conjunto de datos al descomponer los datos y la creación de pares de datos (clave / valor). La tarea de «reducir» es tomar los datos del «mapa» y combinar los pares clave / valor en pares más pequeños. Otro framework alternativo dentro del ecosistema Hadoop para aplicaciones de procesamiento de datos es Apache Tez.
Gridgain
Gridgrain es una herramienta que proporciona métodos dinámicos de computación y almacenamiento de datos tales como la agrupación dinámica, procesamiento MapReduce, ejecución de cierre distribuido, balanceo de carga, tolerancia a fallos, mensajería distribuida y escalabilidad lineal.
HPCC
HPCC, siglas de «clustering computacional de alto rendimiento «, es conocido por ofrecer un rendimiento superior a Hadoop en determinados entornos. Esta herramienta está disponible tanto en versión gratuita y versión de pago. Tiene un apoyo activo de la comunidad en todo el mundo.
Storm
Apache Storm es una herramienta de código libre y abierto. Es fácil de usar y puede ser integrada con cualquier lenguaje de programación. Ofrece una interfaz fácil y fiable, permite procesamiento en tiempo real, similar a lo que Hadoop hace en batch processing (procesamiento por lotes). Es una de las herramientas más populares y está siendo utilizada por empresas como Flipboard, Groupon, Twitter, Spotify, Yahoo (Japón), WebMD, Baidu y muchos más.
Además de las anteriores, hay muchas herramientas de bases de datos / datawarehouses que facilitan las tareas de manejo de grandes volúmenes de datos. Algunas de las más populares son MongoDB, CouchDB, Cassandra, HBase, Neo4j, Riak, Hypertable.
Hana
La Ley de Moore también se aplica al Big Data, lo que nos conduce a soluciones más rápidas, más asequibles, y gracias a ello procesadores y más memoria. Todo tiende al análisis de datos en tiempo real. SAP ha sido el campeón del enfoque in-memory con su plataforma Hana, pero Microsoft y Oracle están a punto de introducir opciones en memoria a sus soluciones de bases de datos. Proveedores de bases de datos enfocados en analítica como Actium, HP Vertica, y Teradata han introducido opciones para relaciones de alto acceso RAM a disco, junto con herramientas para colocar datos específicos en memoria para el análisis ultra-rápido.
Spark
Apache Spark es un motor de procesamiento de datos a gran escala rápido y fácil de usar. Se pueden programar aplicaciones usando diferentes lenguajes como Java, Scala, Python o R. Según las aplicaciones puede llegar a ser 100 veces más rápido que Hadoop MapReduce en memoria o 10 veces más rápido en disco. Permite combinar SQL, streaming y librerías analíticas avanzadas, MLlib para machine learning, GraphX y Spark Streaming. Puede funcionar sobre Hadoop, Mesos, formato standalone, o en cloud. Permite acceder diversas fuentes de datos como HDFS, Cassandra, HBase y S3.
Hive
Kafka
Flume
Apache Flume es un servicio distribuido y fiable para la recogida, agregación, y traslado de grandes conjuntos de datos de manera eficiente. Cuenta con una arquitectura simple y flexible basada en la transmisión de flujos de datos.