Publicado en: Sep 19, 2022
Nos complace anunciar que la versión 6.7.0 de Amazon EMR en EKS y las versiones posteriores incluyen la posibilidad de ejecutar scripts de Apache Spark SQL a través de la API de StartJobRun. Spark SQL es un módulo de Spark para el procesamiento de datos estructurados. A diferencia de la API del marco de datos de Spark, las interfaces de Spark SQL le brindan a Spark más información sobre la estructura de los datos y del procesamiento informático que se lleva a cabo. De manera interna, Spark SQL utiliza esta información extra para realizar optimizaciones adicionales. Con este lanzamiento, puede ejecutar consultas de Spark SQL y canalizaciones de ETL basadas en Spark SQL directamente a través de la API de StartJobRun de Amazon EMR en EKS.
Los usuarios de Amazon EMR en EKS confían en la API de StartJobRun para iniciar trabajos de Spark. Antes, para ejecutar scripts de Spark SQL, los usuarios debían incrustar sus scripts de SQL en interfaces tales como PySpark y debían realizar modificaciones a los scripts de Spark SQL existentes. Como parte de este lanzamiento, se agregó un nuevo controlador de trabajos de Spark SQL a la imagen base de Amazon EMR en EKS que los usuarios utilizan para ejecutar sus trabajos de Spark. Los usuarios ahora podrán suministrar los archivos de punto de entrada de SQL para ejecutar las consultas de Spark SQL en Amazon EMR en EKS directamente con la API de StartJobRun, sin realizar ninguna modificación a los scripts de Spark SQL existentes. Esta característica se encuentra disponible en todas las regiones donde está disponible Amazon EMR en EKS.
Para obtener más información sobre cómo ejecutar scripts de Spark SQL en Amazon EMR en EKS, consulte la página de la documentación.