¿Qué es Hadoop?

Apache Hadoop es un marco de código abierto que se utiliza para almacenar y procesar de manera eficiente conjuntos de datos grandes cuyo tamaño varía entre los gigabytes y los petabytes de datos. En lugar de utilizar una sola computadora grande para procesar y almacenar los datos, Hadoop facilita la creación de clústeres de varias computadoras para analizar conjuntos de datos masivos en paralelo y con mayor rapidez.

¿Cuáles son los cuatro módulos principales de Hadoop?

Hadoop consta de cuatro módulos principales:

  • Sistema de archivos distribuido de Hadoop (HDFS): sistema de archivos distribuido que se ejecuta en hardware estándar o de gama baja. HDFS proporciona un mejor rendimiento de datos que los sistemas de archivos tradicionales, además de una alta tolerancia a errores y compatibilidad nativa con conjuntos de datos de gran tamaño.
  • Yet Another Resource Negotiator (YARN): administra y supervisa los nodos del clúster y el uso de recursos. Programa trabajos y tareas.
  • MapReduce: un marco que ayuda a los programas a realizar el cálculo paralelo de los datos. La tarea de Map toma los datos de entrada y los convierte en un conjunto de datos que se puede calcular en pares de valores clave. La salida de la tarea de Map la consumen las tareas de Reduce para agregar la salida y proporcionar el resultado deseado.
  • Hadoop Common: proporciona bibliotecas Java comunes que se pueden usar en todos los módulos.

¿Cómo funciona Hadoop?

Hadoop facilita el uso de toda la capacidad de almacenamiento y procesamiento de los servidores de clúster y la ejecución de procesos distribuidos con enormes cantidades de datos. Hadoop proporciona los componentes básicos sobre los que se pueden crear otros servicios y aplicaciones.

Las aplicaciones que recopilan datos en varios formatos pueden colocar datos en el clúster de Hadoop mediante una operación de API para conectarse al NameNode. El NameNode rastrea la estructura del directorio de archivos y la ubicación de los “fragmentos” de cada archivo, replicados en DataNodes. Para ejecutar un trabajo de consulta de datos, proporcione un trabajo de MapReduce compuesto por muchas tareas de Map y Reduce que se ejecuten con los datos de HDFS repartidos por los DataNodes. Las tareas de Map se ejecutan en cada nodo con los archivos de entrada suministrados y las tareas de Reduce se ejecutan para agregar y organizar la salida final.

¿Cómo ha evolucionado el ecosistema de Hadoop?

El ecosistema de Hadoop ha crecido significativamente a lo largo de los años debido a su capacidad de extensión. En la actualidad, el ecosistema de Hadoop incluye muchas herramientas y aplicaciones para ayudar a recopilar, almacenar, procesar, analizar y administrar macrodatos. Entre las aplicaciones más populares se incluyen:

  • Spark: un sistema de procesamiento distribuido de código abierto que se usa con frecuencia para cargas de trabajo de macrodatos. Apache Spark utiliza el almacenamiento en caché en memoria y la ejecución optimizada para ofrecer un rendimiento rápido, y es compatible con el procesamiento general por lotes, el análisis de transmisiones, el machine learning, las bases de datos de gráficos y las consultas ad-hoc.
  • Presto: un motor de consultas SQL distribuidas de código abierto optimizado para el análisis de datos ad hoc de baja latencia. Es compatible con el estándar ANSI SQL, incluidas las consultas complejas, las agregaciones, las uniones y las funciones de ventana. Presto puede procesar datos procedentes de diversos orígenes de datos, incluidos Hadoop Distributed File System (HDFS) y Amazon S3.
  • Hive: permite a los usuarios utilizar Hadoop MapReduce con una interfaz de SQL, lo que facilita el análisis a escala masiva, además del almacenamiento de datos distribuidos tolerante a fallos.
  • HBase: una base de datos versionada, no relacional y de código abierto que se ejecuta en Amazon S3 (mediante EMRFS) o en el sistema de archivos distribuido de Hadoop (HDFS). HBase es un almacén de macrodatos distribuido y escalable de forma masiva creado para el acceso aleatorio, estrictamente coherente y en tiempo real a tablas con miles de millones de filas y millones de columnas.
  • Zeppelin: un cuaderno interactivo que permite la exploración interactiva de datos.

¿Cómo puede AWS satisfacer sus necesidades de Hadoop?

Amazon EMR es un servicio administrado que le permite procesar y analizar conjuntos de datos de gran tamaño con las versiones más recientes de marcos de procesamiento de macrodatos, como Apache Hadoop, Spark, HBase y Presto, en clústeres completamente personalizables.

  • Facilidad de uso: puede lanzar un clúster de Amazon EMR en cuestión de minutos. No tiene que preocuparse por el aprovisionamiento de nodos, la configuración del clúster, la configuración de Hadoop o el ajuste del clúster.
  • Bajo costo: los precios de Amazon EMR son simples y predecibles: paga una tarifa por hora por cada hora de instancia que utilice y puede aprovechar las instancias de spot para obtener un ahorro mayor.
  • Elasticidad: gracias a Amazon EMR, puede aprovisionar una instancia informática o cientos o miles de ellas para procesar datos en cualquier escala.
  • Transitorio: puede usar EMRFS para ejecutar clústeres bajo demanda en función de los datos de HDFS almacenados de forma persistente en Amazon S3. Cuando finalicen los trabajos, puede cerrar un clúster y guardar los datos en Amazon S3. Solo pagará por el tiempo de procesamiento durante el cual se ejecuta el clúster.
  • Seguro: Amazon EMR utiliza todas las características de seguridad comunes de los servicios de AWS:
    • Roles y políticas de Identity and Access Management (IAM) para administrar los permisos.
    • Cifrado en tránsito y en reposo para ayudarlo a proteger sus datos y cumplir con los estándares de cumplimiento, como la HIPAA.
    • Grupos de seguridad para controlar el tráfico de red entrante y saliente a los nodos del clúster.
    • AWS CloudTrail: audite todas las llamadas a la API de Amazon EMR realizadas en su cuenta para proporcionar análisis de seguridad, seguimiento de cambios en los recursos y auditorías de cumplimiento.

Para comenzar a trabajar con Hadoop en AWS, cree una cuenta hoy mismo.

Siguientes pasos en AWS

Descubra otros recursos relacionados con el producto
Ver ofertas gratuitas de servicios de análisis en la nube 
Regístrese para obtener una cuenta gratuita

Obtenga acceso instantáneo al nivel Gratuito de AWS.

Regístrese 
Comenzar a crear en la consola

Comience a crear en la consola de administración de AWS.

Iniciar sesión