Amazon SageMaker 推理

轻松部署和管理用于推理的机器学习 (ML) 模型

什么是 Amazon SageMaker Model Deployment?

借助 Amazon SageMaker,可以更轻松地部署 ML 模型,包括基础模型(FM),从而以最佳性价比对任何使用案例发出推理请求。从低延迟(几毫秒)和高吞吐量(每秒数百万个事务)到针对自然语言处理和计算机视觉等使用案例的长时间运行推理,您可以使用 SageMaker 满足自己的所有推理需求。SageMaker 是一项完全托管的服务,与 MLOps 工具集成,因此您可以扩展模型部署、降低推理成本、在生产环境中更有效地管理模型并减轻运营负担。

SageMaker Model Deployment 的优势

SageMaker AI 可满足广泛的推理需求,涵盖低延迟(几毫秒)和高吞吐量(每秒数百万笔交易)场景到适用于多语言文本处理、文本图像处理、多模态理解、自然语言处理和计算机视觉等应用场景的长时间运行的推理。SageMaker AI 提供强大且可扩展的解决方案,可满足您的所有推理需求。
Amazon SageMaker AI 提供 100 多种具有不同计算和内存级别的实例类型,可满足不同的性能需求。为了更好地利用底层加速器并降低部署成本,您可以将多个模型部署到同一个实例。您可以使用自动扩缩功能以进一步优化成本,该功能会根据流量自动调整实例数量。它会在不使用实例时将其关闭,从而降低推理成本。
作为一项完全托管的服务,Amazon SageMaker AI 负责设置和管理实例、软件版本兼容性和补丁版本。通过与 MLOps 功能的内置集成,它有助于减轻部署、扩展和管理机器学习模型的运营开销,同时更快地将其投入生产。

多种推理选项

实时推理

为具有稳定流量模式的使用案例提供实时、交互式和低延迟预测。 您可以将模型部署到完全托管并支持自动扩展的端点。

无服务器推理

低延迟和高吞吐量,适用于具有间歇流量模式的使用案例。无服务器端点会自动启动计算资源并根据流量调整资源规模,从而无需选择实例类型或管理扩展策略。

异步推理

低延迟,适用于有效载荷大(最多 1 GB)或处理时间长(最长一小时)以及近实时延迟要求的使用案例。当没有请求需要处理时,异步推理会自动将实例数量缩减为零,从而帮助节省成本。

批量转换

对大型数据集使用案例的数据批次进行离线推断。利用批量转换功能,您可以对数据集进行预处理,以去除噪音或偏差,并将输入记录与推论相关联,以帮助解释结果。

可扩展且经济高效的推理选项

单模型端点

在专用实例或无服务器上托管的容器上使用一个模型,以实现低延迟和高吞吐量。

了解详情

单模型端点

单个端点上的多个模型

将多个模型托管到同一实例,以更好地利用底层加速器,从而将部署成本降低高达 50%。您可以单独控制每个 FM 的扩展策略,从而更轻松地适应模型使用模式,同时优化基础设施成本。

了解详情

多模型端点

串行推理管道

多个容器共享专用实例并按顺序执行。您可以使用推理管道来组合预处理、预测和后处理数据科学任务。

了解详情

串行推理管道

支持大多数机器学习框架和模型服务器

Amazon SageMaker 推理支持一些常见的机器学习框架(例如 TensorFlow、PyTorch、ONNX 和 XGBoost)的内置算法和预构建的 Docker 映像。如果所有预构建的 Docker 映像都无法满足您的需求,则可以构建自己的容器,以与 CPU 支持的多模型终端节点一起使用。SageMaker 推理支持广受欢迎的模型服务器,例如 TensorFlow Serving、TorchServe、NVIDIA Triton、AWS 多模型服务器。

Amazon SageMaker AI 提供专门的深度学习容器(DLC)、库和工具,用于模型并行和大型模型推理(LMI),以帮助您提高基础模型的性能。使用这些选项,您可以针对几乎所有使用案例快速部署模型,包括基础模型(FM)。


了解更多
 

TensorFlow
PyTorch
mxnet
Hugging Face 徽标
TensorFlow

以低成本实现高推理性能

以低成本实现高推理性能

Amazon SageMaker 的新推理优化工具包可将生成式人工智能模型(如 Llama 3、Mistral 和 Mixtral 模型)的吞吐量提高约 2 倍,同时将成本最多降低达 50%。例如,使用 Llama 3-70B 模型,在不进行任何优化的情况下,在 ml.p5.48xlarge 实例上最多可以达到大约 2,400 个代币/秒,而之前的速度约为 1200 个代币/秒。您可以选择一种模型优化技术(如 Speculative Decoding、Quantization 和 Compilation)或将几种技术结合起来,将其应用到您的模型中,运行基准以评估这些技术对输出质量和推理性能的影响,只需点击几下即可部署模型。

一张展示评估指标的图片

在性能最高的基础架构上部署模型或采用无服务器架构

Amazon SageMaker 提供 70 多种具有不同计算和内存级别的实例类型,包括基于 AWS Inferentia 的 Amazon EC2 Inf1 实例、由 AWS 设计和构建的高性能机器学习推理芯片以及 Amazon EC2 G4dn 等 GPU 实例。或者,选择 Amazon SageMaker 无服务器推理功能,轻松扩展到每个端点的数千个模型、每秒数百万次事务 (TPS) 吞吐量和低于 10 毫秒的开销延迟。

展示机器学习推理芯片功能的图像

用于验证机器学习模型性能的影子测试

Amazon SageMaker 使用实时推理请求对照当前采用 SageMaker 部署的模型进行性能的影子测试来帮助您评估新模型。影子测试可以帮助您在潜在的配置错误和性能问题对最终用户造成影响前捕获它们。借助 SageMaker,您无需花费数周的时间来构建自己的影子测试基础架构。只需选择要测试的生产模型,SageMaker 就会自动在影子模式下部署新模型,并将生产模型收到的推理请求的副本实时路由到新模型。
演示影子测试过程的图像

自动扩展以获得弹性

您可以使用扩展策略自动扩展底层计算资源,以适应推理请求的波动。您可以单独控制每个机器学习模型的扩展策略,以轻松处理模型使用情况的变化,同时还可以优化基础架构成本。

显示自动扩展群组的图像

延迟改善和智能路由

您可以通过智能地将新的推理请求路由到可用的实例(而不是将请求随机路由到已经忙于提供推理请求的实例)来减少机器学习模型的推理延迟,从而使推理延迟平均降低 20%。

减轻运营负担,加快价值实现

完全托管的模型托管和管理

作为一项完全托管的服务,Amazon SageMaker 负责设置和管理实例、软件版本兼容性和补丁版本。它还为端点提供内置指标和日志,您可以使用这些指标和日志来监控和接收警报。

展示模型管理流程的图像

与 MLOps 功能进行内置集成

Amazon SageMaker 模型部署功能与 MLOps 功能原生集成,包括 SageMaker Pipelines(工作流自动化和编排)、SageMaker 项目(用于机器学习的 CI/CD)、SageMaker Feature Store(特征管理)、SageMaker Model Registry(用于跟踪谱系和支持自动化批准工作流的模型和构件目录)、SageMaker Clarify(偏差检测)和 SageMaker Model Monitor(模型和概念偏差检测)。因此,无论您是部署一个模型还是数万个模型,SageMaker 都可以帮助减少部署、扩展和管理机器学习模型的运营开销,同时更快地将其投入生产。

显示训练模型流程图的图片

新增内容

  • 日期(最新到最老)
未找到任何结果
1