Publicado en: Nov 28, 2022
AWS Glue para Apache Spark ahora admite tres marcos de almacenamiento de lago de datos de código abierto: Apache Hudi, Apache Iceberg y Linux Foundation Delta Lake. Estos marcos le ayudan a leer y escribir los datos en Amazon Simple Storage Service (Amazon S3) de forma coherente con las transacciones. AWS Glue es un servicio de integración de datos escalable y sin servidor que facilita la detección, preparación, movimiento e integración de datos de varios orígenes. Esta característica elimina la necesidad de instalar un conector separado y reduce los pasos de configuración que se necesitan para usar estos marcos en AWS Glue para trabajos en Apache Spark.
Estos marcos de lago de datos de código abierto simplifican el procesamiento de datos incrementales en loslagos de datos desarrollados en Amazon S3. Permiten capacidades que incluyen consultas de desplazamiento en el tiempo, transacciones ACID (atomicidad, consistencia, aislamiento, durabilidad), ingesta de streaming, captura de datos de cambio (CDC), actualizaciones y eliminaciones.
Para obtener más información, consulte nuestra documentación.
Esta característica está disponible en todas las regiones comerciales de AWS en las que está disponible AWS Glue.