Amazon SageMaker HyperPod 现在支持使用 Karpenter 进行自动扩缩

发布于: 2025年9月18日

Amazon SageMaker HyperPod 现在支持使用 Karpenter 自动扩缩托管式节点,使客户能够自动扩缩其集群以满足动态推理和训练需求。实时推理工作负载需要自动扩缩来应对不可预测的流量模式、维持服务级别协议和优化成本。但是,企业在安装、配置和维护复杂的自动扩缩解决方案时,往往会面临运营负担方面的困扰。Hyperpod 管理的节点自动扩缩功能可消除 Karpenter 设置和维护过程中千篇一律的繁重工作,同时还可提供集成的弹性和容错能力。

通过使用 Karpenter 在 HyperPod 上进行自动扩缩,客户可以实现即时预置,快速调整 GPU 计算以应对推理流量高峰。客户可以在低需求时段缩减到零节点,而无需维护专用的控制器基础设施,同时还能受益于可优化实例类型和成本且具有工作负载感知能力的节点选择。对于推理工作负载,它提供了旨在应对生产流量突增的自动容量扩缩功能,通过在空闲期整合智能节点实现的成本节省,以及与事件驱动的容器组(pod)自动扩缩器(如 KEDA)的无缝集成。训练工作负载还将受益于模型开发周期中的自动资源优化。您可以使用 UpdateCluster API 在 HyperPod 上启用自动扩缩功能,需将 AutoScaling 模式设置为“Enable”,并将 AutoScalerType 设置为“Karpenter”。

此功能现已在支持 Amazon SageMaker HyperPod EKS 集群的所有 AWS 区域推出。要详细了解如何使用 Karpenter 在 SageMaker HyperPod 上进行自动扩缩,请参阅用户指南博客