发布于: Sep 6, 2023
SageMaker 多模型终端节点 (MME) 是一项完全托管的功能,使客户能够在单个 SageMaker 端点上部署 1000 个模型并降低成本。直到今天,使用 TorchServe 部署的 PyTorch 模型仍不支持 MME。现在,客户可以使用 MME 来通过 TorchServe 部署 1000 个 PyTorch 模型,从而降低推理成本。
越来越多的客户使用 PyTorch 构建 ML 模型以实现业务成果。要部署这些 ML 模型,客户需要在 CPU/GPU 实例上使用 TorchServe 来实现所需的延迟和吞吐量目标。但是,如果客户部署 10 个以上的模型,则成本可能会增加。借助 MME 对 TorchServe 的支持,客户可以在单个 SageMaker 端点上部署 1000 个基于 PyTorch 的模型。在后台,MME 将在单个实例上运行多个模型,并根据传入流量在多个实例上动态加载/卸载模型。有了此功能,客户可以节省成本,因为他们可以在 1000 个模型之间共享一个端点后面的实例,并且只需为使用的实例数付费。
此功能支持 PyTorch 模型,这些模型使用 SageMaker TorchServe Inference Container 以及所有经过机器学习优化的 CPU 实例和 ml.g4dn、ml.g5、ml.p2、ml.p3 系列中的单 GPU 实例。它也适用于 Amazon SageMaker 支持的所有区域。
首先,请使用我们的 API 或 SageMaker Python SDK 创建具有您选择的实例类型的 MME 端点。要了解更多信息,请访问我们有关 MME for TorchServe 的文档页面,并访问我们的发布博客。