发布于: Nov 10, 2021
Amazon SageMaker 推理现在支持新的模型部署选项,以支持生产中的机器学习模型。使用新的部署防护机制,您可以通过受控方式从生产中的当前模型切换到新模型。此次发布引入了 canary 和线性流量转移模式,以便您可以在更新过程中对从当前模型到新模型的流量转移进行细粒度控制。通过自动回滚之类的内置保护措施,您可以及早发现问题,并在问题造成重大生产影响之前自动采取纠正措施。
Amazon SageMaker 是一种完全托管的服务,可帮助开发人员和数据科学家通过整合专门为 ML 构建的广泛功能集快速准备、构建、训练和部署高质量的机器学习模型。当您将经过训练的 ML 模型部署到 Amazon SageMaker 后,它将负责预置、修补和更新终端节点,以便您可以专注于使用 ML 增强您的应用程序。当您需要使用 ML 模型或服务容器的新版本更新终端节点时,SageMaker 会生成一个包含更新的新机群(绿色机群)并一次性将现有机群(蓝色机群)的流量转移过来,这称为蓝/绿部署。这可以确保终端节点即使在更新过程中也可以响应请求,从而最大程度提高可用性。
此次发布后,Amazon SageMaker 增加了 canary 和线性流量转移模式到蓝/绿部署中。这些模式为您在机群之间转移流量提供了更细粒度的控制,以便您可以在拨号前建立信心。此外,您还可以对延迟或错误率等指标预先指定 CloudWatch 告警,并在上述告警之一被触发时自动将部署回滚到蓝色机群。Canary 模式使您可以将一小部分流量转移到绿色机群(称为 canary 机群)、观察 canary 机群的行为一段时间(称为生成时期),并且仅在生成期间没有触发告警时转移剩余的流量。线性模式允许您以可配置的固定增量(比如 10%)将流量转移到绿色机群,并在转移后续增量之前观察生成期间的行为。在所有蓝/绿部署中,您可以在所有流量均转移后(称为最后生成期)观察机群,然后终止蓝色机群。这些流量转移模式有助于您在管理将新模型引入生产环境的风险和控制更新的持续时间之间取得平衡,因此您可以针对您的使用案例选择正确的选项。流量突然发生转移最大限制减少了更新的持续时间,线性模式通过多步转移流量使新模型投入生产的风险最小化。Canary 模式通过两个步骤转移所有流量,以在风险与更新持续时间之间取得平衡。