Revolucionario. Este es el panorama actual en cuanto al análisis de datos en la que vivimos. Las empresas se han visto inundadas con enormes cantidades y variedad de datos por un lado, y por otro, se han elevado las expectativas para el análisis de los mismos en el menor tiempo posible. La oferta de proveedores está respondiendo proporcionando arquitecturas altamente distribuidas, y nuevas soluciones referentes a niveles de memoria y potencia de procesamiento. Startups especializadas también explotan el modelo de licencias de código abierto, que no es nuevo, pero está cada vez más aceptado e incluso buscado por los profesionales en gestión de datos.
10 Herramientas Big Data Analytics
Hadoop
La popularidad de este ecosistema puede ser entendido por el hecho de que Hadoop y Big Data se han utilizado hasta ahora casi como sinónimos. La biblioteca Hadoop ofrece un framework que utiliza modelos de programación simples para el procesamiento distribuido de un gran conjunto de datos a través de varias máquinas conectadas. Fue diseñado para superar fallos y errores en la capa de aplicaciones, proporcionando de este modo una alta precisión. Hadoop, fue la plataforma de procesamiento de datos pionera en Big Data, empezó hace nueve años, con licencia de código abierto y utilizada por gigantes de Internet como Yahoo y Facebook. Hadoop sigue liderando la revolución de datos masivos pero ya ha sido desbancada en capacidad y rapidez de procesamiento en determinadas situaciones por otras plataformas como Spark. Cloudera introdujo soporte comercial para las empresas en 2008, y MapR y Hortonworks se apuntaron al carro en 2009 y 2011, respectivamente. Entre los grandes en gestión de datos, IBM y Pivotal (spinout de EMC) presentaron sus propias distribuciones de Hadoop. Microsoft y Teradata ofrecen también software relacionado y líneas de apoyo técnico y comercial para la plataforma Hortonworks. Oracle revende y apoya Cloudera, mientras que HP, SAP y otros actúan más con una estrategia de diversificación, trabajando con varios proveedores Hadoop al mismo tiempo.
Mapreduce
MapReduce es un motor computacional que permite una escalabilidad descomunal a miles de servidores en un cluster Hadoop. Literalmente, MapReduce se divide en dos términos, «Mapa» y «Reducir». «Mapa» viene a ser la conversión de un dataset en otro conjunto de datos al descomponer los datos y la creación de pares de datos (clave / valor). La tarea de «reducir» es tomar los datos del «mapa» y combinar los pares clave / valor en pares más pequeños. Otro framework alternativo dentro del ecosistema Hadoop para aplicaciones de procesamiento de datos es Apache Tez.
Gridgain
Gridgrain es una herramienta que proporciona métodos dinámicos de computación y almacenamiento de datos tales como la agrupación dinámica, procesamiento MapReduce, ejecución de cierre distribuido, balanceo de carga, tolerancia a fallos, mensajería distribuida y escalabilidad lineal.
HPCC
HPCC, siglas de «clustering computacional de alto rendimiento «, es conocido por ofrecer un rendimiento superior a Hadoop en determinados entornos. Esta herramienta está disponible tanto en versión gratuita y versión de pago. Tiene un apoyo activo de la comunidad en todo el mundo.
Storm
Apache Storm es una herramienta de código libre y abierto. Es fácil de usar y puede ser integrada con cualquier lenguaje de programación. Ofrece una interfaz fácil y fiable, permite procesamiento en tiempo real, similar a lo que Hadoop hace en batch processing (procesamiento por lotes). Es una de las herramientas más populares y está siendo utilizada por empresas como Flipboard, Groupon, Twitter, Spotify, Yahoo (Japón), WebMD, Baidu y muchos más.
Además de las anteriores, hay muchas herramientas de bases de datos / datawarehouses que facilitan las tareas de manejo de grandes volúmenes de datos. Algunas de las más populares son MongoDB, CouchDB, Cassandra, HBase, Neo4j, Riak, Hypertable.
Hana
La Ley de Moore también se aplica al Big Data, lo que nos conduce a soluciones más rápidas, más asequibles, y gracias a ello procesadores y más memoria. Todo tiende al análisis de datos en tiempo real. SAP ha sido el campeón del enfoque in-memory con su plataforma Hana, pero Microsoft y Oracle están a punto de introducir opciones en memoria a sus soluciones de bases de datos. Proveedores de bases de datos enfocados en analítica como Actium, HP Vertica, y Teradata han introducido opciones para relaciones de alto acceso RAM a disco, junto con herramientas para colocar datos específicos en memoria para el análisis ultra-rápido.
Spark
Apache Spark es un motor de procesamiento de datos a gran escala rápido y fácil de usar. Se pueden programar aplicaciones usando diferentes lenguajes como Java, Scala, Python o R. Según las aplicaciones puede llegar a ser 100 veces más rápido que Hadoop MapReduce en memoria o 10 veces más rápido en disco. Permite combinar SQL, streaming y librerías analíticas avanzadas, MLlib para machine learning, GraphX y Spark Streaming. Puede funcionar sobre Hadoop, Mesos, formato standalone, o en cloud. Permite acceder diversas fuentes de datos como HDFS, Cassandra, HBase y S3.
Hive
Apache Hive es una infraestructura datawarehouse para Hadoop. Este software facilita la consulta y gestión de grandes conjuntos de datos que residen en almacenamiento distribuido. La funcionalidad principal de Hive es proporcionar resumenes de datos, consultas y análisis. Es compatible con el análisis de grandes conjuntos de datos almacenados en HDFS de Hadoop, así como en el sistema de archivos de Amazon S3. Ofrece un mecanismo para proyectar la estructura sobre los datos y consultarlos utilizando un lenguaje similar a SQL llamado HiveQL.
Kafka
Apache Kafka es un sistema de publicación distribuida. Ha sido diseñado para permitir que un solo grupo de datos pueda servir como la columna vertebral para una gran organización. Un único broker de Kafka puede manejar cientos de megabytes en lecturas y escrituras por segundo desde miles de clientes. Puede ser ampliado de manera elástica y transparente en modo producción. Algunas de las empresas que usan Kafka para el streaming de datos son LinkedIn, Yahoo, Twitter, Netflix, Square, Spotify, Pinterest, Uber, Goldman Sachs, Tumblr, Paypal, Box, Airbnb, Cisco, Mozilla, Foursquare, …
Flume
Apache Flume es un servicio distribuido y fiable para la recogida, agregación, y traslado de grandes conjuntos de datos de manera eficiente. Cuenta con una arquitectura simple y flexible basada en la transmisión de flujos de datos.
What do you think?
Articulo muy instructivo, mi experiencia con HPCC ha sido muy positiva. Descargar la imagen VM de HPCC y empezar a cargar y transformar datos en relativamente poco tiempo.
[…] del Business Analytics ha crecido fuertemente, provocado por la aparición de herramientas como Hadoop y Spark, que permiten procesar grandes cantidades de datos a un costo mucho más bajo de lo que […]
[…] a la ciencia de datos, el machine learning y plataformas de big data como Spark y Kafka ahora es posible detectar usuarios y comportamientos fraudulentos mediante aprendizaje no […]
[…] quieres profundizar más sobre estas herramientas te recomiendo leer 10 herramientas para Big Data Analytics, 7 herramientas Big Data para tu empresa, 18 herramientas Hadoop para procesar Big […]
[…] http://www.baoss.es/10-herramientas-para-manejar-big-data-analytics/ […]