Publicado: Nov 15, 2019
Agora, o Amazon EMR versão 5.28.0 é compatível com Apache Hudi (Incubating). Os engenheiros de dados que usam o Amazon EMR para desenvolvimento de pipelines de dados e processamento de dados já podem usar o Apache Hudi para simplificar o gerenciamento de dados incrementais e os casos de uso de privacidade de dados que exigem operações de inserção, atualizações e exclusão em nível de registro. O Apache Hudi permite que os data lakes baseados no Amazon S3 cumpram as leis de privacidade de dados, consumam fluxos em tempo real e alterem os logs de captura de dados, restabeleçam os dados que chegam atrasados e rastreiem o histórico e a reversão de alterações. O Apache Hudi é de código aberto e compatível com armazenamento de dados no Amazon S3 em formatos de código aberto neutros ao fornecedor, como Apache Parquet e Apache Avro.
O Apache Hudi é uma estrutura de gerenciamento de dados de código aberto usada para simplificar o processamento incremental de dados e o desenvolvimento de pipelines de dados. O Apache Hudi permite gerenciar dados em nível de registro no Amazon S3 para simplificar o CDC (Captura de dados de alterações) e a ingestão de dados de streaming, além de fornecer uma estrutura para lidar com casos de uso de privacidade de dados que exigem atualizações e exclusões em nível de registro. Os conjuntos de dados gerenciados pelo Apache Hudi são armazenados no S3 usando formatos de armazenamento aberto, e as integrações com o Presto, Apache Hive, Apache Spark e AWS Glue Data Catalog oferecem acesso quase em tempo real a dados atualizados usando ferramentas familiares.
O Apache Hudi tem suporte nativo no Amazon EMR e é instalado automaticamente quando você escolhe o Apache Spark, Hive ou Presto ao implantar o cluster EMR. Usando o Apache Hudi, você pode criar conjuntos de dados otimizados para casos de uso de leitura pesada ou gravação pesada, e o Apache Hudi gerenciará os dados subjacentes armazenados no S3 usando o Apache Parquet e o Apache Avro para armazenamento de dados.
O Amazon EMR versão 5.28.0 com Apache Hudi já está disponível no Leste dos EUA (Virgínia e Ohio), Oeste dos EUA (Oregon), América do Sul (São Paulo), Europa (Irlanda e Estocolmo), AWS GovCloud (Leste dos EUA e Oeste dos EUA), AWS (Região de Pequim) operado pela Sinnet, com mais regiões sendo adicionadas nas próximas semanas.
Fique por dentro das versões do Amazon EMR assinando o feed das notas de release do EMR. Use o ícone na parte superior do Guia de versões do EMR para vincular o URL do feed diretamente ao seu leitor de feeds favorito.
Para obter uma visão mais detalhada do uso do Apache Hudi com o EMR, participe de uma sessão e uma oficina da re:Invent.
Links adicionais:
AWS News Blog: Novo - Inserir, atualizar e excluir dados no S3 com Amazon EMR e Apache Hudi