Amazon SageMaker HyperPod

将基础模型的训练时间缩短高达 40%,并可有效扩展到一千多个 AI 加速器

什么是 SageMaker HyperPod?

Amazon SageMaker HyperPod 消除了构建和优化机器学习(ML)基础设施所涉及的千篇一律的繁重工作。它预配置了 SageMaker 的分布式训练库,能够自动将训练工作负载拆分到一千多个 AI 加速器上,从而并行处理工作负载以提高模型性能。SageMaker HyperPod 通过定期保存检查点来确保您能够不间断的进行 FM 训练。它会自动检测硬件故障,修复或更换故障实例,并从上次保存的检查点恢复训练,而无需您手动管理此过程。弹性环境允许您在分布式环境中连续数周或数月不间断地训练模型,从而节省高达 40% 的训练时间。SageMaker HyperPod 还具有高度可定制性,使您能够高效运行和扩展 FM 工作负载,并轻松在不同的工作负载(从大规模训练到推理)之间共享计算容量。

SageMaker HyperPod 的优势

Amazon SageMaker HyperPod 预先配置了 Amazon SageMaker 分布式训练库,允许您在 AWS 集群实例中自动拆分模型和训练数据集,有助于高效地扩展训练工作负载。
Amazon SageMaker 分布式训练库通过数据并行和模型并行两种技术,优化您的 AWS 网络基础设施和集群拓扑的训练作业。模型并行性会将由于过大而不适合在单个 GPU 上训练的模型拆分成较小的多个部分,然后将其分配到多个 GPU 上进行训练。数据并行性拆分大型数据集以并行训练,从而提升训练速度。
SageMaker HyperPod 可自动检测、诊断故障并从故障中恢复,从而提供更具韧性的训练环境,使您能够连续训练 FM 数月而不会中断。

可扩展性和经过优化的资源利用率

您可以通过一致的基于 Kubernetes 的管理员体验来管理和操作 SageMaker HyperPod 集群。这使您能够高效地运行和扩展 FM 工作负载,包括训练、微调、实验和推理。您可以轻松共享计算容量,并在 Slurm 和 EKS 之间切换以处理不同类型的工作负载。

高性能分布式训练库

借助 SageMaker 的分布式训练库,您可以运行高度可扩展且经济高效的自定义数据并行和模型并行深度学习训练作业。SageMaker HyperPod 预先配置了 SageMaker 分布式库。只需几行代码,您就可以在训练脚本中启用数据并行性。SageMaker HyperPod 通过在 AWS GPU 实例中自动拆分模型和训练数据集,可以更快地执行分布式训练。

了解详情

自动集群运行状况检查和修复

如果在训练工作负载期间有任何实例出现缺陷,SageMaker HyperPod 会自动检测故障节点,并将其交换为运行正常的节点。为了检测硬件故障,SageMaker HyperPod 会定期对 GPU 和网络完整性进行一系列运行状况检查。 

可提高性能的高级可观测性

您可以使用 SageMaker HyperPod 中的内置 ML 工具来提高模型性能。例如,带有 TensorBoard 的 Amazon SageMaker 可通过可视化模型架构来识别和修复收敛问题,从而帮助您节省开发时间,而 Amazon SageMaker Debugger 则可实时捕获指标并分析训练作业。与 Amazon CloudWatch Container Insights 的集成可让您更深入地了解集群性能、运行状况和利用率。 

了解更多 »

工作负载调度和编排

SageMaker HyperPod 用户界面可以使用 Slurm 或 Amazon EKS 进行高度自定义。您可以选择并安装任何需要的框架或工具。所有集群均使用您选择的实例类型和数量进行预调配,并保留供您在各种工作负载中使用。