Publicado en: Nov 29, 2022
Amazon EMR anuncia la integración de Amazon Redshift con Apache Spark. Esta integración ayuda a los ingenieros de datos a crear y ejecutar aplicaciones Spark que pueden consumir y escribir datos desde un clúster de Amazon Redshift. A partir de Amazon EMR 6.9, esta integración está disponible en los tres modelos de implementación para EMR: EC2, EKS y sin servidor.
Puede usar esta integración para crear aplicaciones que escriban directamente en las tablas de Redshift como parte de sus flujos de trabajo de ETL, o para combinar datos en Redshift con datos de otra fuente. Los desarrolladores pueden cargar datos de tablas de Redshift a marcos de datos de Spark o escribir datos en tablas de Redshift. Además, ya no tienen que preocuparse por descargar conectores de código abierto para conectarse a Redshift.
La integración de Amazon Redshift para Apache Spark permite que las aplicaciones en Amazon EMR que acceden a los datos de Redshift se ejecuten hasta 10 veces más rápido en comparación con los conectores Redshift-Spark existentes. Admite la reducción de operaciones relacionales, como uniones, agregaciones, clasificación y funciones escalares de Spark a Redshift para mejorar el rendimiento de sus consultas. Admite roles basados en IAM para habilitar capacidades de inicio de sesión único y se integra con AWS Secrets Manager para administrar claves de forma segura.
La integración de Amazon Redshift para Apache Spark está disponible en todas las regiones donde están disponibles Amazon EMR, Amazon EMR en EKS y Amazon sin servidor. Para comenzar, consulte nuestra documentación para Amazon EMR, Amazon EMR en EKS y Amazon EMR sin servidor.