SageMaker HyperPod 现在支持对 LLM 任务进行拓扑感知调度

发布于: 2025年8月14日

SageMaker HyperPod 任务治理现在支持拓扑感知调度 (TAS),使数据科学家能够使用最佳网络拓扑调度大语言模型 (LLM) 任务,从而最大限度地减少网络通信并提高训练效率。

分布在多个加速计算实例上的 LLM 训练和微调任务经常在它们之间交换大量数据。实例之间的多个网络跃点会导致更高的通信延迟,从而影响 LLM 任务性能。SageMaker HyperPod 任务治理现在使数据科学家能够在调度具有特定拓扑首选项的任务时使用网络拓扑信息。通过在 HyperPod 中使用网络拓扑,SageMaker HyperPod 任务治理可自动将任务调度到最佳位置,从而减少实例间的通信并提高训练效率。

SageMaker HyperPod 任务治理现已在所有提供 HyperPod 的 AWS 区域推出:美国西部(北加利福尼亚)、美国西部(俄勒冈州)、亚太地区(新加坡)、亚太地区(悉尼)、欧洲地区(法兰克福)、欧洲地区(爱尔兰)、欧洲地区(斯德哥尔摩)。

要了解更多信息,请访问 SageMaker HyperPod 网页SageMaker HyperPod 任务治理文档