Amazon SageMaker HyperPod 功能

在数千个 AI 加速器上扩展和加速生成式人工智能模型的开发

自动集群运行状况检查和修复

如果在训练工作负载期间有任何实例出现缺陷,SageMaker HyperPod 会自动检测故障节点,并将其交换为运行正常的节点。为了检测硬件故障,SageMaker HyperPod 会定期对 GPU 和网络完整性进行一系列运行状况检查。 

高性能分布式训练库

借助 SageMaker 的分布式训练库,您可以运行高度可扩展且经济高效的自定义数据并行和模型并行深度学习训练作业。SageMaker HyperPod 预先配置了 SageMaker 分布式库。只需几行代码,您就可以在训练脚本中启用数据并行性。SageMaker HyperPod 通过在 AWS GPU 实例中自动拆分模型和训练数据集,可以更快地执行分布式训练。

了解详情

可提高性能的高级可观测性

您可以使用 SageMaker HyperPod 中的内置机器学习工具提高模型性能。例如,带有 TensorBoard 的 Amazon SageMaker 可通过可视化模型架构来识别和修复收敛问题,从而帮助您节省开发时间,而 Amazon SageMaker Debugger 则可实时捕获指标并分析训练作业。与 Amazon CloudWatch Container Insights 的集成可让您更深入地了解集群性能、运行状况和利用率。 

工作负载调度和编排

SageMaker HyperPod 用户界面可以使用 Slurm 或 Amazon EKS 进行高度自定义。您可以选择并安装任何需要的框架或工具。所有集群均使用您选择的实例类型和数量进行预调配,并保留供您在各种工作负载中使用。

可扩展性和经过优化的资源利用率

您可以通过一致的基于 Kubernetes 的管理员体验来管理和操作 SageMaker HyperPod 集群。这使您能够高效地运行和扩展基础模型工作负载,包括训练、微调、实验和推理。您可以轻松共享计算容量,并在 Slurm 和 EKS 之间切换以处理不同类型的工作负载。