Publicado: Sep 19, 2022
Temos o prazer de anunciar que o Amazon EMR no EKS versão 6.7.0 e posteriores inclui a capacidade de executar scripts de Apache Spark SQL usando a API StartJobRun. O Spark SQL é um módulo de processamento de dados estruturados do Spark. Ao contrário da API DataFrame do Spark, as interfaces de Spark SQL fornecem ao Spark mais informações sobre a estruturas de dados e computação em execução. O Spark SQL usa essas informações internamente para executar otimizações adicionais. Com este lançamento, você pode executar consultas de Spark SQL e pipelines de ETL baseadas em Spark SQL diretamente pela API StartJobRun do Amazon EMR no EKS.
Usuários do Amazon EMR no EKS usam a API StartJobRun para iniciar trabalhos do Spark. Anteriormente, para executar scripts de Spark SQL, os usuários precisavam incorporar scripts de SQL em interfaces como PySpark, que exigiam que os usuários modificassem os scripts de Spark SQL existentes. Como parte deste lançamento, um novo driver para trabalhos de Spark SQL foi adicionado à imagem básica do Amazon EMR no EKS, usada pelos usuários para executar trabalhos do Spark. Agora, os usuários podem fornecer arquivos de ponto de entrada de SQL para execução de consultas do Spark SQL no Amazon EMR no EKS usando diretamente a API StartJobRun, sem precisar modificar scripts existentes do Spark SQL. Esse recurso está disponível em todas as regiões em que o Amazon EMR no EKS é oferecido.
Para saber mais sobre como executar scripts do Spark SQL no Amazon EMR no EKS, consulte a página de documentação.