Publicado: Mar 30, 2021
Ao criar conjuntos de dados no AWS Glue DataBrew do data lake do Amazon S3, agora você pode criar conjuntos de dados dinâmicos para agendar a preparação de dados em novos arquivos de entrada do Amazon S3 ou aplicar transformações em arquivos ou pastas filtrados ou escolhidos condicionalmente no S3. Você pode criar um caminho dinâmico do S3 para escolher arquivos com base em uma janela de tempo ou hora da última atualização do arquivo e definir parâmetros personalizados para substituir valores de strings, números ou valores baseados em data no seu caminho de arquivo do S3 com condições de filtro, como começa com, termina com, contém, não contém, menos que, maior que, antes e outros. Nomes de parâmetros personalizados podem ser incluídos como colunas em seus conjuntos de dados, e o esquema revisado será usado para trabalhos em execução em conjuntos de dados dinâmicos. Com caminhos e/ou arquivos do S3 parametrizados, os usuários podem programar a aplicação de receitas existentes para execução em conjuntos de dados dinâmicos selecionados.
O DataBrew é uma ferramenta visual de preparação de dados que facilita a limpeza e a normalização de dados usando mais de 250 transformações pré-criadas para preparação de dados, sem a necessidade de escrever qualquer código.
Para saber mais, assista a este vídeo de introdução ou use um conjunto de dados de amostra para explorar o DataBrew. Para começar, acesse o Console de Gerenciamento da AWS ou instale o plug-in do DataBrew em seu ambiente de notebooke consulte a documentação do DataBrew.