发布于: Nov 8, 2021

Amazon SageMaker Pipelines 是一项专门构建的服务,允许客户定义和编排其模型构建步骤,该服务现在支持恢复执行失败/停止的管道,并重试管道步骤的策略。

SageMaker Pipelines 提供了多种步骤(例如处理、训练、注册模型、回调等)。客户可以使用这些步骤,将 ML 模型构建工作流作为 SageMaker Pipelines 进行生产。现在,随着这些新功能的启动,客户可以在执行其 SageMaker Pipelines 时获得更多操作控制和灵活度。

以前,如果管道失败或停止,客户必须开启新的执行。现在,客户可以从以前失败/停止的步骤中恢复失败/停止的管道。此功能使客户无需重新执行以前成功的步骤,从而更轻松地调试管道,并节省时间/资源。

客户现在还可以使用以下参数为管道步骤配置重试策略:最大重试次数、重试间隔时间、重试间隔速率和最大重试时间跨度。这些参数可以在管道/步骤精细度上进行配置,并且可以针对特定错误类型进行自定义。客户可以使用此功能操作其模型构建管道,并为瞬态/间歇性错误合并故障安全策略。

这些功能将在所有提供 Amazon SageMaker 的 AWS 区域推出。要开启此功能,请从 Amazon SageMaker SDK 或 Studio 创建一个新的 SageMaker 管道,并访问我们关于恢复重试策略的文档页面。