Amazon SageMaker HyperPod 宣布推出对 Slurm 集群的运行状况监控代理支持

发布于: 2025年9月15日

今日，Amazon SageMaker HyperPod 宣布正式推出适用于 Slurm 集群的运行状况监控代理。SageMaker HyperPod 可帮助您为运行机器学习（ML）工作负载和开发最先进的模型（如大语言模型（LLM）、扩散模型和基础模型（FM））预置弹性集群。运行状况监控代理会对实例执行被动式后台运行状况检查，以在不影响应用程序行为或性能的前提下发现关键领域的问题，即时标记故障，并替换所有不正常的实例，以确保训练作业平稳运行。

该代理在 HyperPod 集群中所有基于 GPU 或 Trainium 的节点上持续运行以监视硬件问题，例如 GPU 或 NVLink 错误计数器不响应。当检测到故障时，它会将该节点标记为不正常并自动重启，或将其替换为运行正常的节点，确保任务持续运行而无需人工干预。该代理还采用协同方式，借助 Slurm 集群所具备的任务自动恢复功能来处理故障。例如，启用了自动恢复功能的任务在节点被代理替换后，将从上次保存的检查点继续运行。这种无需人工干预的恢复方式（目前已在利用 Amazon EKS 编排的 HyperPod 集群上可用）现在为 Slurm 集群提供了同样的弹性环境，可帮助团队连续数周训练大型模型而不中断，同时挽回原本会因运行中断而损失的时间与成本。此外，如果遇到 GPU 驱动程序问题等需要重置的间歇性故障，用户现在还可以使用一条简单命令重启其节点。

适用于 Slurm 的运行状况监控代理已在全面提供 HyperPod 的所有区域推出。该代理在所有新创建的 Slurm 集群上自动启用；要在现有集群上启用它，只需通过调用 UpdateClusterSoftware API 升级至最新 HyperPod AMI 即可。要了解更多信息，请访问 Amazon SageMaker HyperPod 文档。

Amazon SageMaker HyperPod 宣布推出对 Slurm 集群的运行状况监控代理支持

了解

资源

开发人员

帮助