什么是 Amazon SageMaker Model Deployment?
借助 Amazon SageMaker,可以更轻松地部署 ML 模型,包括基础模型(FM),从而以最佳性价比对任何使用案例发出推理请求。从低延迟(几毫秒)和高吞吐量(每秒数百万个事务)到针对自然语言处理和计算机视觉等使用案例的长时间运行推理,您可以使用 SageMaker 满足自己的所有推理需求。SageMaker 是一项完全托管的服务,与 MLOps 工具集成,因此您可以扩展模型部署、降低推理成本、在生产环境中更有效地管理模型并减轻运营负担。
SageMaker Model Deployment 的优势
多种推理选项
实时推理
无服务器推理
异步推理
批量转换
支持大多数机器学习框架和模型服务器
Amazon SageMaker 推理支持一些常见的机器学习框架(例如 TensorFlow、PyTorch、ONNX 和 XGBoost)的内置算法和预构建的 Docker 映像。如果所有预构建的 Docker 映像都无法满足您的需求,则可以构建自己的容器,以与 CPU 支持的多模型终端节点一起使用。SageMaker 推理支持广受欢迎的模型服务器,例如 TensorFlow Serving、TorchServe、NVIDIA Triton、AWS 多模型服务器。
Amazon SageMaker AI 提供专门的深度学习容器(DLC)、库和工具,用于模型并行和大型模型推理(LMI),以帮助您提高基础模型的性能。使用这些选项,您可以针对几乎所有使用案例快速部署模型,包括基础模型(FM)。
以低成本实现高推理性能
以低成本实现高推理性能
Amazon SageMaker 的新推理优化工具包可将生成式人工智能模型(如 Llama 3、Mistral 和 Mixtral 模型)的吞吐量提高约 2 倍,同时将成本最多降低达 50%。例如,使用 Llama 3-70B 模型,在不进行任何优化的情况下,在 ml.p5.48xlarge 实例上最多可以达到大约 2,400 个代币/秒,而之前的速度约为 1200 个代币/秒。您可以选择一种模型优化技术(如 Speculative Decoding、Quantization 和 Compilation)或将几种技术结合起来,将其应用到您的模型中,运行基准以评估这些技术对输出质量和推理性能的影响,只需点击几下即可部署模型。
在性能最高的基础架构上部署模型或采用无服务器架构
Amazon SageMaker 提供 70 多种具有不同计算和内存级别的实例类型,包括基于 AWS Inferentia 的 Amazon EC2 Inf1 实例、由 AWS 设计和构建的高性能机器学习推理芯片以及 Amazon EC2 G4dn 等 GPU 实例。或者,选择 Amazon SageMaker 无服务器推理功能,轻松扩展到每个端点的数千个模型、每秒数百万次事务 (TPS) 吞吐量和低于 10 毫秒的开销延迟。
用于验证机器学习模型性能的影子测试
延迟改善和智能路由
您可以通过智能地将新的推理请求路由到可用的实例(而不是将请求随机路由到已经忙于提供推理请求的实例)来减少机器学习模型的推理延迟,从而使推理延迟平均降低 20%。
减轻运营负担,加快价值实现
完全托管的模型托管和管理
作为一项完全托管的服务,Amazon SageMaker 负责设置和管理实例、软件版本兼容性和补丁版本。它还为端点提供内置指标和日志,您可以使用这些指标和日志来监控和接收警报。
与 MLOps 功能进行内置集成
Amazon SageMaker 模型部署功能与 MLOps 功能原生集成,包括 SageMaker Pipelines(工作流自动化和编排)、SageMaker 项目(用于机器学习的 CI/CD)、SageMaker Feature Store(特征管理)、SageMaker Model Registry(用于跟踪谱系和支持自动化批准工作流的模型和构件目录)、SageMaker Clarify(偏差检测)和 SageMaker Model Monitor(模型和概念偏差检测)。因此,无论您是部署一个模型还是数万个模型,SageMaker 都可以帮助减少部署、扩展和管理机器学习模型的运营开销,同时更快地将其投入生产。