发布于: Jun 30, 2021
在您准备数据时,AWS Glue DataBrew 会添加自动识别和标记列高级数据类型列的支持,使包含以下类型数据的列易于规范化:社会安全号码 (SSN)、电子邮件地址、电话号码、性别、信用卡、URL、IP 地址、日期和时间、货币、邮政编码、国家/地区、区域、州和城市。此外,DataBrew 还可以直观地标记包含个人识别信息 (PII) 的列,允许您轻松地扫描数据集中的所有 PII 列并应用转换。了解有关所有支持的高级数据类型的详细信息。
要分配具有高级数据类型的列,只需单击该列,DataBrew 将自动识别数据类型,生成数据有效性统计数据,并提供建议以规范化列中的数据。识别完成后,您就可以使用 DataBrew 的 250+ 种内置转换,例如删除无效值、替换丢失值和提取自定义值,以便在不编写任何代码的情况下轻松准备数据。
要开始使用,请访问 AWS 管理控制台或在您的笔记本环境中安装 DataBrew 插件。