宣布为 Amazon SageMaker Inference 推出粘性会话路由

发布于: 2024年9月12日

今天,我们宣布在 Amazon SageMaker Inference 中推出粘性会话路由,该路由可帮助客户利用以前处理过的信息改善其生成式人工智能应用程序的性能和用户体验。借助 Amazon SageMaker,可以更轻松地部署 ML 模型,包括基础模型(FM),从而以最佳性价比对任何使用案例发出推理请求。

启用粘性会话后,同一会话的所有请求都会路由到同一实例,这样您的 ML 应用程序就能重复使用先前处理过的信息,从而减少延迟并改善用户体验。当客户想要使用大型数据负载或需要无缝的交互体验时,这项功能尤其有用。通过利用以前的推理请求,客户现在可以借助这项功能在 SageMaker 上构建创新的状态感知 AI 应用程序。要使用这项功能,客户需要在第一个请求中创建一个会话 ID,然后使用该会话 ID 来指示 SageMaker 应将所有后续请求路由到同一实例。会话完成后,您也可以将其删除,为新会话腾出资源。

此功能在提供 SageMaker 的所有区域均可使用。您可以在此处了解有关在 SageMaker 上部署模型的更多信息,也可以在我们的文档中详细了解这项功能。