发布于: Mar 30, 2021
在 AWS Glue DataBrew 中根据 Amazon S3 数据湖创建数据集时,现在可以创建动态数据集,以针对新传入的 Amazon S3 文件计划数据准备工作,或者对 S3 中经过筛选或有条件选择的文件或文件夹应用转换。可以创建动态 S3 路径以根据时间范围或上次文件更新时间选择文件,以及定义多个自定义参数以使用筛选条件替换 S3 文件路径中的字符串、数字或基于日期的值,这些筛选条件包括开始于、结束于、包含、不包含、小于、大于、之前和其他。可以将自定义参数名称作为列包含在数据集中,而修订后的架构将用于在动态数据集中运行的作业。借助参数化的 S3 路径和/或文件,用户可以计划应用现有配方以在选定的动态数据集上运行。
DataBrew 是一种可视化的数据准备工具,借助它,可以轻松地利用 250 多个预构建的转换来清理和规范化数据,以进行数据准备,而无需编写任何代码。
要了解更多信息,请观看此入门视频或使用示例数据集来了解 DataBrew。要开始使用,请访问 AWS 管理控制台或在您的笔记本环境中安装 DataBrew 插件,并参阅 DataBrew 文档。