Amazon SageMaker HyperPod 宣布推出对 Slurm 集群的运行状况监控代理支持

发布于: 2025年9月15日

今日,Amazon SageMaker HyperPod 宣布正式推出适用于 Slurm 集群的运行状况监控代理。SageMaker HyperPod 可帮助您为运行机器学习(ML)工作负载和开发最先进的模型(如大语言模型(LLM)、扩散模型和基础模型(FM))预置弹性集群。运行状况监控代理会对实例执行被动式后台运行状况检查,以在不影响应用程序行为或性能的前提下发现关键领域的问题,即时标记故障,并替换所有不正常的实例,以确保训练作业平稳运行。 

该代理在 HyperPod 集群中所有基于 GPU 或 Trainium 的节点上持续运行以监视硬件问题,例如 GPU 或 NVLink 错误计数器不响应。当检测到故障时,它会将该节点标记为不正常并自动重启,或将其替换为运行正常的节点,确保任务持续运行而无需人工干预。该代理还采用协同方式,借助 Slurm 集群所具备的任务自动恢复功能来处理故障。例如,启用了自动恢复功能的任务在节点被代理替换后,将从上次保存的检查点继续运行。这种无需人工干预的恢复方式(目前已在利用 Amazon EKS 编排的 HyperPod 集群上可用)现在为 Slurm 集群提供了同样的弹性环境,可帮助团队连续数周训练大型模型而不中断,同时挽回原本会因运行中断而损失的时间与成本。此外,如果遇到 GPU 驱动程序问题等需要重置的间歇性故障,用户现在还可以使用一条简单命令重启其节点。 

适用于 Slurm 的运行状况监控代理已在全面提供 HyperPod 的所有区域推出。该代理在所有新创建的 Slurm 集群上自动启用;要在现有集群上启用它,只需通过调用 UpdateClusterSoftware API 升级至最新 HyperPod AMI 即可。要了解更多信息,请访问 Amazon SageMaker HyperPod 文档