SageMaker Canvas 现支持在 PB 级数据上使用无代码 ML 和数据准备

发布于: 2024年8月16日

Amazon SageMaker Canvas 现在支持 PB 级数据集,使企业能够充分发挥其数据的潜力。即日起,您可以通过交互方式准备大型数据集,创建端到端数据流并在 PB 级数据上触发 AutoML 试验,这与之前的 5GB 限制相比是一个巨大飞跃。Canvas 拥有 50 多个连接器、直观的“与数据聊天”界面和 PB 级数据量支持,可提供可扩展、低代码/无代码的 ML 解决方案,用于处理现实中的企业使用案例。

即日起,Canvas 将为您提供随机和分层等新的采样技术,允许采样多达 20 万行,增加了十倍。这样一来,您就可以利用我们与 EMR Serverless 的全新无缝集成,在处理整个数据集前轻松收集数据质量洞察,并以交互方式了解数据转换的影响。Canvas 可自动将超过 5GB 数据的处理(包括采样、准备、模型构建和推理)扩展到 EMR Serverless,通过直观的体验发挥数据的全部预测潜力。使用 EMR Serverless 会产生额外的 EMR 定价成本。

已推出 SageMaker Canvas 的所有 AWS 区域均提供新的 PB 级数据支持以及改进的交互式体验。

要开始在大型数据集上使用无代码 ML 和数据准备,请使用我们的技术文档在您的 Canvas 域和用户配置文件中启用“大型数据处理配置”,并通过 AWS 机器学习博客了解如何使用新功能。现有用户应根据文档更新其 SageMaker 域设置,从 Canvas 工作区注销,然后重新登录以访问最新版本。