Apache Hadoop: ¿Qué es, para qué sirve, en qué se usa?

Apache Hadoop es un proyecto de la organizacion Apache, que se encarga de desarrollar un software abierto, confiable y escalable para la computación distribuida.

Apache Hadoop

Apache Hadoop es un «framework» (marco de trabajo) que permite procesamiento distribuido de grandes conjuntos de datos, a través de «clusters» (grupos) de computadores, usando modelos simples de programación. Está diseñado para escalar desde pocos servidores a miles de servidores, cada uno ofreciendo su propio almacenamiento y procesamiento local.

La librería Hadoop está diseñada para detectar y manajar fallas en la capa de aplicación, y así entregar un servicio de alta disponibilidad sobre un cluster de computadores, cada uno de los cuales puede estar propenso a fallas.

El proyecto Hadoop consta de los siguientes módulos:

Hadoop Common: Son las utilidades comunes que soportan a los demás módulos Hadoop.

Hadoop Distribuited File System (HDFS): Es un sistema distribuido de archivos que provee un acceso de alto rendimiento a los datos de la aplicación.

Hadoop YARN: Es un framework para programar tareas y gestionar los recursos del cluster.

Hadoop MapReduce: Es un sistema basado en YARN para procesamiento en paralelo de grandes conjuntos de datos.

Además de Hadoop, otros proyectos relacionados en los que trabaja Apache son:

Ambari: Es una herramienta web para aprovisionar, gestionar y monitorear los clusters Apache Hadoop.

Avro: Es un sistema de serialización de datos.

Cassandra: Es una base de datos multi-maestro en configuración non-single-failure.

Chukwa: Es un sistema de recolección de datos para gestionar grandes sistemas distribuidos.

HBase: Es una base de datos escalable y distribuida, que soporte almacenamiento de datos estructurados para tablas grandes.

Hive: Es una infraestructura data-warehouse que provee resumen de datos y consultas ad-hoc.

Mohout: Es una librería escalable de aprendizaje de máquina y de minería de datos.

Pig: Es un framework para procesamiento en paralelo, con un lenguaje de alto nivel de flujo de datos.

Spark: Es un motor de computo rápido y general para los datos Hadoop. Provee un modelo de programación simpre y expresivo que soporta un amplio rango de aplicaciones, incluyendo ETL, aprendizaje de máquina, flujos de procesos y computación gráfica.

Tez: Es un framework de programación de flujo de datos, construido sobre Hadoop YARN.

ZooKeeper: Es un serivicio de coordinación de alto rendimiento para aplicaciones distrubuidas.

Apache Hadoop es una herramienta muy potente y al alcance de cualquiera para iniciarse en el mundo del manejo de big data, y el procesamiento en paralelo de grandes cantidades de información.

Este artículo hace parte del servicio de divulgación de conomimiento de ITSoftware SAS.

ITSoftware SAS es una empresa dedicada a innovar en el desarrollo de aplicaciones web y móviles, destinadas a mejorar el desempeño de los procesos de las empresas.
Te apoyamos para construir las soluciones que necesitas para tu negocio actual o tu emprendimiento. Ven y consúltanos en www.itsoftware.com.co.

Apache Hadoop: ¿Qué es, para qué sirve, en qué se usa?

Si te gustó, por favor no te olvides de compartirlo en las redes sociales. 😉

Deja un comentario Cancelar la respuesta

Si te gustó, por favor no te olvides de compartirlo en las redes sociales. 😉

Deja un comentario Cancelar la respuesta

Política de Cookies ITSoftware