Publicado: Nov 29, 2022
Amazon EMR anuncia a integração do Amazon Redshift com o Apache Spark. Essa integração ajuda engenheiros de dados a criar e executar aplicações do Spark que podem consumir e gravar dados em clusters do Amazon Redshift. A partir do Amazon EMR 6.9, essa integração está disponível em todos os três modelos de implantação para EMR no EC2, EMR no EKS e EMR Sem Servidor.
Você pode usar essa integração para criar aplicações que gravam diretamente tabelas do Redshift dentro de fluxos de trabalho de ETL ou combinam dados do Redshift com os de outras fontes. Os desenvolvedores podem carregar dados de tabelas do Redshift para quadros de dados do Spark ou gravar dados em tabelas do Redshift. Eles não precisam se preocupar com o download de conectores de código aberto para conexão ao Redshift.
A integração do Amazon Redshift para Apache Spark permite que aplicações executadas no Amazon EMR acessem dados do Redshift para executar até dez vezes mais rápido em relação aos conectores existentes entre Redshift e Spark. Ela permite transferir operações relacionais, como associações, agregações, classificação e funções escalares do Spark para o Redshift, aumentando a performance das consultas. Além disso, ela oferece suporte a perfis baseados em IAM para habilitar recursos de autenticação única e está integrada ao AWS Secrets Manager para o gerenciamento seguro de chaves.
A integração do Amazon Redshift para Apache Spark está disponível em todas as regiões em que os serviços Amazon EMR, Amazon EMR no EKS e Amazon EMR Sem Servidor são oferecidos. Para começar a usar, consulte a documentação sobre Amazon EMR, Amazon EMR no EKS e Amazon EMR Sem Servidor.