发布于: Sep 30, 2022
Amazon SageMaker Data Wrangler 可将汇总和准备机器学习 (ML) 数据所需的时间从数周缩短至几分钟。Amazon SageMaker Autopilot 可根据您的数据自动构建、训练和调整最佳机器学习模型,同时允许您保持完全控制和可见性。通过 Data Wrangler,只需点击几下,即可使用 Amazon SageMaker Autopilot 实现统一的数据准备和模型训练体验。这种集成现在得到了增强,以包括和重用 Data Wrangler 特征转换,例如缺失值插补、序号/独热编码器等,以及用于 ML 推理的 Autopilot 模型。当您在 Data Wrangler 中准备数据并通过调用 Autopilot 训练模型时,现在可以将训练过的模型以及所有 Data Wrangler 特征转换部署为 SageMaker 串行推理管道。这将能够在推理时通过重用 Data Wrangler 特征转换来自动预处理原始数据。目前,只有不使用联接、分组依据、串联和时间序列转换的 Data Wrangler 流才支持此功能。
在本次发布之前,当使用根据 Data Wrangler 准备好的数据训练的 Autopilot 模型时,用于推理的数据需要在 SageMaker Data Wrangler 中进行预处理。在以实时模式或批处理模式显示用于推理的数据之前,必须进行此类预处理。从即日起,在使用 Data Wrangler 准备数据并在 SageMaker Autopilot 中训练模型后,您可以进行批量预测,其中包括数据整理转换,也可以将训练过的模型与数据整理器转换一起部署到 SageMake 端点的后面。通过这种自动包含数据整理转换的方法,在进行推理时无需在实时和批处理推理中手动预处理数据。
这一新体验现已在所有提供 SageMaker Data Wrangler 和 SageMaker Autopilot 的区域推出。要开始使用,请参阅根据您的数据流自动训练模型或查看博客文章。