Publicado: Jun 6, 2023
A AWS anuncia a disponibilidade geral do AWS Glue Data Quality, um recurso que mede e monitora automaticamente a qualidade do data lake e do pipeline de dados. O AWS Glue é um serviço de integração de dados escalável, de ETL (extração, transformação e carregamento) e com tecnologia sem servidor que facilita a descoberta, preparação, movimentação e integração de dados de várias fontes.
O AWS Glue Data Quality ajuda a reduzir a necessidade de trabalho manual na qualidade de dados analisando automaticamente seus dados para coletar estatísticas de dados. Ele usa o Deequ de código aberto para avaliar regras, medir e monitorar a qualidade dos dados de data lakes em escala de petabytes. Em seguida, ele recomenda regras de qualidade de dados para começar. Você pode atualizar as regras recomendadas ou adicionar novas regras. Se a qualidade dos dados piorar, você poderá configurar ações para alertar os usuários e detalhar a causa raiz do problema. As regras e ações de qualidade de dados também podem ser configuradas nos pipelines de dados do AWS Glue, ajudando a evitar que dados “ruins” entrem em data lakes e data warehouses.
Com a disponibilidade geral, lançamos novos atributos para identificar registros específicos que falharam nas verificações de qualidade dos dados e adicionamos novas regras que validam a consistência de dados em diferentes conjuntos de dados. Agora você pode validar a qualidade dos dados dos conjuntos de dados do Amazon Redshift, Apache Iceberg, Apache HUDI e Delta Lake que estão catalogados no Catálogo de Dados do AWS Glue. Os resultados do AWS Glue Data Quality agora são publicados no Amazon EventBridge, simplificando a forma como os usuários são alertados e integrando resultados de qualidade de dados com outras aplicações. Esses atributos ajudam você a realizar verificações robustas da qualidade dos dados em vários conjuntos de dados e a identificar problemas para correção.
O AWS Glue Data Quality está disponível em todas as regiões da AWS nas quais o AWS Glue é oferecido.
Para saber mais, acesse o AWS Glue Data Quality.