Apache Hadoop es un proyecto de la organizacion Apache, que se encarga de desarrollar un software abierto, confiable y escalable para la computación distribuida.

Apache Hadoop es un «framework» (marco de trabajo) que permite procesamiento distribuido de grandes conjuntos de datos, a través de «clusters» (grupos) de computadores, usando modelos simples de programación. Está diseñado para escalar desde pocos servidores a miles de servidores, cada uno ofreciendo su propio almacenamiento y procesamiento local.
La librería Hadoop está diseñada para detectar y manajar fallas en la capa de aplicación, y así entregar un servicio de alta disponibilidad sobre un cluster de computadores, cada uno de los cuales puede estar propenso a fallas.
El proyecto Hadoop consta de los siguientes módulos:
- Hadoop Common: Son las utilidades comunes que soportan a los demás módulos Hadoop.
- Hadoop Distribuited File System (HDFS): Es un sistema distribuido de archivos que provee un acceso de alto rendimiento a los datos de la aplicación.
- Hadoop YARN: Es un framework para programar tareas y gestionar los recursos del cluster.
- Hadoop MapReduce: Es un sistema basado en YARN para procesamiento en paralelo de grandes conjuntos de datos.
Además de Hadoop, otros proyectos relacionados en los que trabaja Apache son:
- Ambari: Es una herramienta web para aprovisionar, gestionar y monitorear los clusters Apache Hadoop.
- Avro: Es un sistema de serialización de datos.
- Cassandra: Es una base de datos multi-maestro en configuración non-single-failure.
- Chukwa: Es un sistema de recolección de datos para gestionar grandes sistemas distribuidos.
- HBase: Es una base de datos escalable y distribuida, que soporte almacenamiento de datos estructurados para tablas grandes.
- Hive: Es una infraestructura data-warehouse que provee resumen de datos y consultas ad-hoc.
- Mohout: Es una librería escalable de aprendizaje de máquina y de minería de datos.
- Pig: Es un framework para procesamiento en paralelo, con un lenguaje de alto nivel de flujo de datos.
- Spark: Es un motor de computo rápido y general para los datos Hadoop. Provee un modelo de programación simpre y expresivo que soporta un amplio rango de aplicaciones, incluyendo ETL, aprendizaje de máquina, flujos de procesos y computación gráfica.
- Tez: Es un framework de programación de flujo de datos, construido sobre Hadoop YARN.
- ZooKeeper: Es un serivicio de coordinación de alto rendimiento para aplicaciones distrubuidas.
Apache Hadoop es una herramienta muy potente y al alcance de cualquiera para iniciarse en el mundo del manejo de big data, y el procesamiento en paralelo de grandes cantidades de información.
Este artículo hace parte del servicio de divulgación de conomimiento de ITSoftware SAS.
ITSoftware SAS es una empresa dedicada a innovar en el desarrollo de aplicaciones web y móviles, destinadas a mejorar el desempeño de los procesos de las empresas.
Te apoyamos para construir las soluciones que necesitas para tu negocio actual o tu emprendimiento. Ven y consúltanos en www.itsoftware.com.co.