亚马逊AWS官方博客

使用 AWS Glue Studio 中的数据准备功能集成数据并进行协作



今天,我们宣布在 AWS Glue Studio Visual ETL 中全面推出数据准备创作功能。这是一种面向业务用户和数据分析师的全新无代码数据准备用户体验,采用电子表格样式的用户界面,可在 AWS Glue for Spark 上大规模运行数据集成作业。这一全新的可视化数据准备体验让数据分析师和数据科学家可以更轻松地清理和转换数据,为分析和机器学习(ML)做好准备。在此新体验中,您可以从数百种预构建的转换中进行选择,以自动执行数据准备任务,而无需编写任何代码。

业务分析师现在可以与数据工程师合作构建数据集成作业。数据工程师可以使用 Glue Studio 基于流的可视化视图来定义与数据的连接并设置数据流过程的顺序。业务分析师则可以使用数据准备体验来定义数据转换和输出。此外,您还可以将现有的 AWS Glue DataBrew 数据清洗和准备“配方”导入到新的 AWS Glue 数据准备体验中。这样,您就可以继续直接在 AWS Glue Studio 中编写这些配方,然后纵向扩展,以较低的价格处理 AWS Glue 作业的 PB 级数据。

可视化 ETL 先决条件(环境设置)
可视化 ETL 需要将 AWSGlueConsoleFullAccess IAM 托管策略附加到将要访问 AWS Glue 的用户和角色


该策略将授予这些用户和角色对 AWS Glue 的完全访问权限和对Amazon Simple Storage Service(Amazon S3)资源的读取访问权限。

高级可视化 ETL 流程
定义适当的 AWS Identity and Access Management(IAM)角色权限后,使用 AWS Glue Studio 编写可视化 ETL。

提取
通过从来源列表中选择 Amazon S3 节点来创建 Amazon S3 节点。


选择新创建的节点并浏览 S3 数据集。成功上传文件后,选择推理架构来配置源节点,可视界面将显示 .csv 文件中包含的数据的预览。

之前,我在与 AWS Glue 可视化 ETL 相同的区域中创建了一个 S3 存储桶,并上传了一个 .csv 文件 visual ETL conference data.csv,其中包含我将要可视化的数据。

务必按照上一步中的详细说明设置角色权限以授予 AWS Glue 读取 S3 存储桶的访问权限。如果不执行此步骤,您将收到错误,最终导致您无法查看数据预览。

转换
完成节点配置后,添加数据准备配方并启动数据预览会话。启动此会话通常需要大约 2 – 3 分钟。


数据预览会话准备就绪后,选择作者配方以启动创作会话,并在数据框完成后添加转换。在创作会话期间,您可以查看数据、应用转换步骤并以交互方式查看转换后的数据。您可以撤消、重做和重新排序步骤。您可以可视化列的数据类型和每列的统计属性。


您可以通过选择添加步骤开始对数据应用转换步骤,例如将格式从小写更改为大写、更改排序顺序等。您的所有数据准备步骤都将在配方中跟踪。
我想要查看将在南非举办的会议,因此我创建了两个配方来按条件进行筛选,其中位置列的值等于“南非”,注释列则包含一个值。


加载
以交互方式准备数据后,您可以与数据工程师共享您的工作,他们可以使用更高级的可视化 ETL 流程和自定义代码对其进行扩展,以将其无缝集成到生产数据管道中。

现已推出
AWS Glue 数据准备创作体验现已在所有提供 AWS Data Brew 的商业 AWS 区域公开发布。要了解更多信息,请访问 AWS Glue

有关更多信息,请参阅《AWS Glue 开发人员指南》,向 AWS re:Post for AWS Glue 发送反馈,或通过您常用的 AWS Support 联系人发送反馈。

Veliswa