发布于: Dec 4, 2023
Amazon SageMaker Canvas 现在支持由 Amazon SageMaker Data Wrangler 提供支持的全面数据准备功能。现在,您可以从 50 多个数据来源导入表格、时间序列、图像和文本数据,生成数据质量和见解报告,并使用 300 多个内置运算符转换数据以构建和使用机器学习 (ML) 模型,所有这些操作都不需要编写任何代码。通过这种集成,您可以使用 SageMaker Canvas 将机器学习的数据准备时间从几周缩短到几分钟。
聚合、分析和转换大量数据至关重要,但通常也是机器学习工作流程中最耗时的部分。客户现在可以使用数据质量和见解报告快速分析和可视化数据,以识别可能影响模型质量的数据问题,并使用 Spark 支持的 300 多种转换清理数据并创建机器学习功能。现在,客户可以在 SageMaker Canvas 中创建可视化数据准备流程,并从 Amazon S3、Amazon Athena、Amazon Redshift、Salesforce Data Cloud, Snowflake 和 50 多个数据来源导入数据。准备好数据后,客户可以扩展数据准备步骤以在分布式 Spark 处理作业上运行,导出数据集以训练模型,或者使用即用型机器学习和基础模型预测结果。或者,他们可以将其数据工作流程导出为 SageMaker 管道中的一个步骤,以便在 SageMaker Studio 中近乎实时地设计功能、训练模型或转换数据以进行推理。