Apache Hadoop: ¿Qué es, para qué sirve, en qué se usa?

Apache Hadoop es un proyecto de la organizacion Apache, que se encarga de desarrollar un software abierto, confiable y escalable para la computación distribuida.

Apache hadoop
Apache Hadoop

Apache Hadoop es un «framework» (marco de trabajo) que permite procesamiento distribuido de grandes conjuntos de datos, a través de «clusters» (grupos) de computadores, usando modelos simples de programación. Está diseñado para escalar desde pocos servidores a miles de servidores, cada uno ofreciendo su propio almacenamiento y procesamiento local.

La librería Hadoop está diseñada para detectar y manajar fallas en la capa de aplicación, y así entregar un servicio de alta disponibilidad sobre un cluster de computadores, cada uno de los cuales puede estar propenso a fallas.

El proyecto Hadoop consta de los siguientes módulos:

  • Hadoop Common: Son las utilidades comunes que soportan a los demás módulos Hadoop.
  • Hadoop Distribuited File System (HDFS): Es un sistema distribuido de archivos que provee un acceso de alto rendimiento a los datos de la aplicación.
  • Hadoop YARN: Es un framework para programar tareas y gestionar los recursos del cluster.
  • Hadoop MapReduce: Es un sistema basado en YARN para procesamiento en paralelo de grandes conjuntos de datos.

Además de Hadoop, otros proyectos relacionados en los que trabaja Apache son:

  • Ambari: Es una herramienta web para aprovisionar, gestionar y monitorear los clusters Apache Hadoop.
  • Avro: Es un sistema de serialización de datos.
  • Cassandra: Es una base de datos multi-maestro en configuración non-single-failure.
  • Chukwa: Es un sistema de recolección de datos para gestionar grandes sistemas distribuidos.
  • HBase: Es una base de datos escalable y distribuida, que soporte almacenamiento de datos estructurados para tablas grandes.
  • Hive: Es una infraestructura data-warehouse que provee resumen de datos y consultas ad-hoc.
  • Mohout: Es una librería escalable de aprendizaje de máquina y de minería de datos.
  • Pig: Es un framework para procesamiento en paralelo, con un lenguaje de alto nivel de flujo de datos.
  • Spark: Es un motor de computo rápido y general para los datos Hadoop. Provee un modelo de programación simpre y expresivo que soporta un amplio rango de aplicaciones, incluyendo ETL, aprendizaje de máquina, flujos de procesos y computación gráfica.
  • Tez: Es un framework de programación de flujo de datos, construido sobre Hadoop YARN.
  • ZooKeeper: Es un serivicio de coordinación de alto rendimiento para aplicaciones distrubuidas.

Apache Hadoop es una herramienta muy potente y al alcance de cualquiera para iniciarse en el mundo del manejo de big data, y el procesamiento en paralelo de grandes cantidades de información.

Este artículo hace parte del servicio de divulgación de conomimiento de ITSoftware SAS.


ITSoftware SAS es una empresa dedicada a innovar en el desarrollo de aplicaciones web y móviles, destinadas a mejorar el desempeño de los procesos de las empresas.

Te apoyamos para construir las soluciones que necesitas para tu negocio actual o tu emprendimiento. Ven y consúltanos en www.itsoftware.com.co.


Si te gustó, por favor no te olvides de compartirlo en las redes sociales. 😉

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.