Amazon SageMaker Inference 现已支持推理组件端点的滚动更新

发布于: 2025年3月10日

Amazon SageMaker Inference 现已支持推理组件 (IC) 端点的滚动更新。使用此功能,客户可以在不中断流量的情况下更新正在运行的 IC 端点,同时使用最少的额外实例,而不再像过去那样需要双倍数量的实例。SageMaker Inference 简化了 ML 模型的部署,包括基础模型 (FM)。作为 SageMaker Inference 的一项功能,IC 使客户能够在同一个端点上部署多个 FM,并控制每个模型的加速器分配。

现在,滚动更新使客户能够批量更新端点中的 IC,而不再像以前的蓝绿更新方法那样一次性更新所有 IC。蓝绿更新要求在将流量从旧的 IC 实例集切换到新的 IC 实例集之前,先为更新后的模型预置一个新的 IC 实例集,这可以有效地将所需实例数量翻倍。通过滚动更新,新的 IC 会以较小的批次创建,从而显著减少在更新过程中所需的额外实例数量。这有助于客户尽量减少额外容量的成本,并在容量预留中保持较小的缓冲需求。

IC 的滚动更新已在支持 IC 的所有区域推出:亚太地区(东京、首尔、孟买、新加坡、悉尼、雅加达)、加拿大(中部)、欧洲地区(法兰克福、斯德哥尔摩、爱尔兰、伦敦)、中东(阿联酋)、南美洲(圣保罗)、美国东部(弗吉尼亚州北部、俄亥俄州)和美国西部(北加利福尼亚、俄勒冈州)。要了解更多信息,请参阅文档