10 herramientas para manejar Big Data Analytics

Iñaki Ladrero

hace 9 años

El análisis de datos es una necesidad de vida o muerte para las empresas del siglo XXI. Analizamos en este artículo 10 herramientas de software Big Data, desde startups alrededor de Hadoop hasta grandes players en bases de datos de toda la vida.

Revolucionario. Este es el panorama actual en cuanto al análisis de datos en la que vivimos. Las empresas se han visto inundadas con enormes cantidades y variedad de datos por un lado, y por otro, se han elevado las expectativas para el análisis de los mismos en el menor tiempo posible. La oferta de proveedores está respondiendo proporcionando arquitecturas altamente distribuidas, y nuevas soluciones referentes a niveles de memoria y potencia de procesamiento. Startups especializadas también explotan el modelo de licencias de código abierto, que no es nuevo, pero está cada vez más aceptado e incluso buscado por los profesionales en gestión de datos.

10 Herramientas Big Data Analytics

Hadoop

La popularidad de este ecosistema puede ser entendido por el hecho de que Hadoop y Big Data se han utilizado hasta ahora casi como sinónimos. La biblioteca Hadoop ofrece un framework que utiliza modelos de programación simples para el procesamiento distribuido de un gran conjunto de datos a través de varias máquinas conectadas. Fue diseñado para superar fallos y errores en la capa de aplicaciones, proporcionando de este modo una alta precisión. Hadoop, fue la plataforma de procesamiento de datos pionera en Big Data, empezó hace nueve años, con licencia de código abierto y utilizada por gigantes de Internet como Yahoo y Facebook. Hadoop sigue liderando la revolución de datos masivos pero ya ha sido desbancada en capacidad y rapidez de procesamiento en determinadas situaciones por otras plataformas como Spark. Cloudera introdujo soporte comercial para las empresas en 2008, y MapR y Hortonworks se apuntaron al carro en 2009 y 2011, respectivamente. Entre los grandes en gestión de datos, IBM y Pivotal (spinout de EMC) presentaron sus propias distribuciones de Hadoop. Microsoft y Teradata ofrecen también software relacionado y líneas de apoyo técnico y comercial para la plataforma Hortonworks. Oracle revende y apoya Cloudera, mientras que HP, SAP y otros actúan más con una estrategia de diversificación, trabajando con varios proveedores Hadoop al mismo tiempo.

Mapreduce

MapReduce es un motor computacional que permite una escalabilidad descomunal a miles de servidores en un cluster Hadoop. Literalmente, MapReduce se divide en dos términos, «Mapa» y «Reducir». «Mapa» viene a ser la conversión de un dataset en otro conjunto de datos al descomponer los datos y la creación de pares de datos (clave / valor). La tarea de «reducir» es tomar los datos del «mapa» y combinar los pares clave / valor en pares más pequeños. Otro framework alternativo dentro del ecosistema Hadoop para aplicaciones de procesamiento de datos es Apache Tez.

Gridgain

Gridgrain es una herramienta que proporciona métodos dinámicos de computación y almacenamiento de datos tales como la agrupación dinámica, procesamiento MapReduce, ejecución de cierre distribuido, balanceo de carga, tolerancia a fallos, mensajería distribuida y escalabilidad lineal.

HPCC

HPCC, siglas de «clustering computacional de alto rendimiento «, es conocido por ofrecer un rendimiento superior a Hadoop en determinados entornos. Esta herramienta está disponible tanto en versión gratuita y versión de pago. Tiene un apoyo activo de la comunidad en todo el mundo.

Storm

Apache Storm es una herramienta de código libre y abierto. Es fácil de usar y puede ser integrada con cualquier lenguaje de programación. Ofrece una interfaz fácil y fiable, permite procesamiento en tiempo real, similar a lo que Hadoop hace en batch processing (procesamiento por lotes). Es una de las herramientas más populares y está siendo utilizada por empresas como Flipboard, Groupon, Twitter, Spotify, Yahoo (Japón), WebMD, Baidu y muchos más.
Además de las anteriores, hay muchas herramientas de bases de datos / datawarehouses que facilitan las tareas de manejo de grandes volúmenes de datos. Algunas de las más populares son MongoDB, CouchDB, Cassandra, HBase, Neo4j, Riak, Hypertable.

Hana

La Ley de Moore también se aplica al Big Data, lo que nos conduce a soluciones más rápidas, más asequibles, y gracias a ello procesadores y más memoria. Todo tiende al análisis de datos en tiempo real. SAP ha sido el campeón del enfoque in-memory con su plataforma Hana, pero Microsoft y Oracle están a punto de introducir opciones en memoria a sus soluciones de bases de datos. Proveedores de bases de datos enfocados en analítica como Actium, HP Vertica, y Teradata han introducido opciones para relaciones de alto acceso RAM a disco, junto con herramientas para colocar datos específicos en memoria para el análisis ultra-rápido.

Spark

Apache Spark es un motor de procesamiento de datos a gran escala rápido y fácil de usar. Se pueden programar aplicaciones usando diferentes lenguajes como Java, Scala, Python o R. Según las aplicaciones puede llegar a ser 100 veces más rápido que Hadoop MapReduce en memoria o 10 veces más rápido en disco. Permite combinar SQL, streaming y librerías analíticas avanzadas, MLlib para machine learning, GraphX y Spark Streaming. Puede funcionar sobre Hadoop, Mesos, formato standalone, o en cloud. Permite acceder diversas fuentes de datos como HDFS, Cassandra, HBase y S3.

Hive

Apache Hive es una infraestructura datawarehouse para Hadoop. Este software facilita la consulta y gestión de grandes conjuntos de datos que residen en almacenamiento distribuido. La funcionalidad principal de Hive es proporcionar resumenes de datos, consultas y análisis. Es compatible con el análisis de grandes conjuntos de datos almacenados en HDFS de Hadoop, así como en el sistema de archivos de Amazon S3. Ofrece un mecanismo para proyectar la estructura sobre los datos y consultarlos utilizando un lenguaje similar a SQL llamado HiveQL.

Kafka

Apache Kafka es un sistema de publicación distribuida. Ha sido diseñado para permitir que un solo grupo de datos pueda servir como la columna vertebral para una gran organización. Un único broker de Kafka puede manejar cientos de megabytes en lecturas y escrituras por segundo desde miles de clientes. Puede ser ampliado de manera elástica y transparente en modo producción. Algunas de las empresas que usan Kafka para el streaming de datos son LinkedIn, Yahoo, Twitter, Netflix, Square, Spotify, Pinterest, Uber, Goldman Sachs, Tumblr, Paypal, Box, Airbnb, Cisco, Mozilla, Foursquare, …

Flume

Apache Flume es un servicio distribuido y fiable para la recogida, agregación, y traslado de grandes conjuntos de datos de manera eficiente. Cuenta con una arquitectura simple y flexible basada en la transmisión de flujos de datos.