Apache Hadoop desarrolla software para computación distribuida, escalable y segura. Hadoop es un framework que permite el procesamiento distribuido de grandes conjuntos de datos a través de grupos de ordenadores que utilizan modelos de programación sencillos. Está diseñado para ser instalado en un solo servidor o miles de ellos, cada uno, con su propio procesador y almacenamiento.
En lugar de depender del hardware para ofrecer alta disponibilidad, la propia biblioteca está diseñado para detectar y controlar los errores en la capa de aplicación, por lo que, la alta disponibilidad de los datos está por encima del hardware y es independiente de los errores que se puedan producir en el mismo.