Amazon SageMaker HyperPod

将基础模型的训练时间缩短高达 40%,并可有效扩展到一千多个 AI 加速器

什么是 SageMaker HyperPod?

Amazon SageMaker HyperPod 消除了构建和优化机器学习(ML)基础设施所涉及的千篇一律的繁重工作。它预配置了 SageMaker 的分布式训练库,能够自动将训练工作负载拆分到一千多个 AI 加速器上,从而并行处理工作负载以提高模型性能。SageMaker HyperPod 通过定期保存检查点来确保您能够不间断的进行 FM 训练。它会自动检测硬件故障,修复或更换故障实例,并从上次保存的检查点恢复训练,而无需您手动管理此过程。弹性环境允许您在分布式环境中连续数周或数月不间断地训练模型,从而节省高达 40% 的训练时间。SageMaker HyperPod 还具有高度可定制性,使您能够高效运行和扩展 FM 工作负载,并轻松在不同的工作负载(从大规模训练到推理)之间共享计算容量。

SageMaker HyperPod 的优势

Amazon SageMaker HyperPod 预先配置了 Amazon SageMaker 分布式训练库,允许您在 AWS 集群实例中自动拆分模型和训练数据集,有助于高效地扩展训练工作负载。
SageMaker HyperPod 支持常用的集群管理和作业计划系统,例如 Slurm 和 Amazon Elastic Kubernetes Service(EKS)。当您扩展基础模型训练和推理工作负载时,它将为您提供卓越的开发人员体验,并能够管理容器化应用程序、动态集群扩展和云原生集成。此外,您还可以在训练与推理之间无缝共享资源,以进一步优化资源利用率。
SageMaker HyperPod 可自动检测、诊断故障并从故障中恢复,从而提供更具韧性的训练环境,使您能够连续训练 FM 数月而不会中断。