Amazon SageMaker HyperPod

在数千个 AI 加速器上扩展和加速生成式人工智能模型的开发

什么是 SageMaker HyperPod?

Amazon SageMaker HyperPod 消除了构建和优化机器学习(ML)基础设施所涉及的千篇一律的繁重工作。它预配置了 SageMaker 的分布式训练库,能够自动将训练工作负载拆分到一千多个 AI 加速器上,从而并行处理工作负载以提高模型性能。SageMaker HyperPod 通过定期保存检查点来确保您能够不间断的进行 FM 训练。它会自动检测硬件故障,修复或更换故障实例,并从上次保存的检查点恢复训练,而无需您手动管理此过程。弹性环境允许您在分布式环境中连续数周或数月不间断地训练模型,从而节省高达 40% 的训练时间。SageMaker HyperPod 还具有高度可定制性,使您能够高效运行和扩展 FM 工作负载,并轻松在不同的工作负载(从大规模训练到推理)之间共享计算容量。

SageMaker HyperPod 的优势

Amazon SageMaker HyperPod 预先配置了 Amazon SageMaker 分布式训练库,允许您在 AWS 集群实例中自动拆分模型和训练数据集,有助于高效地扩展训练工作负载。
借助 SageMaker HyperPod 配方,各种技能水平的数据科学家和开发人员都能从最先进的性能中获益,同时可以在几分钟内开始训练并微调公开可用的生成式人工智能模型。HyperPod 还提供了内置的实验和可观测性工具,帮助您增强模型性能。
SageMaker HyperPod 可自动检测、诊断故障并从故障中恢复,从而提供更具韧性的训练环境,使您能够连续训练 FM 数月而不会中断。
SageMaker HyperPod 可自动检测、诊断和恢复基础设施故障,从而为模型开发提供弹性环境,使您能够连续运行模型开发工作负载数月而不会中断。

在 SageMaker HyperPod 中推出任务治理

最大限度地提高利用率并全面了解计算资源,与此同时还能降低成本。

了解详情