什么是 Amazon SageMaker Model Training?
Amazon SageMaker Model Training 可减少大规模训练和调整机器学习 (ML) 模型的时间和成本,而无需管理基础架构。您可以利用目前可用的性能最高的机器学习计算基础架构,SageMaker 可自动扩展或缩减基础架构,从一个 GPU 扩展到数千个 GPU。由于您只需按实际用量付费,因此您可以更有效地管理训练成本。为了更快地训练深度学习模型,SageMaker 可帮助您实时选择和优化数据集。SageMaker 分布式训练库可自动在 AWS GPU 实例之间拆分大型模型和训练数据集,或者您也可以使用第三方库,例如 DeepSpeed、Horovod 或 Megatron。通过自动监控和修复训练集群,在不中断的情况下对基础模型(FM)进行数周甚至数月的训练。
经济高效培训的优势
大规模训练模型
完全托管的训练作业
Amazon SageMaker 训练作业为大型分布式 FM 训练提供了完全托管的用户体验,消除了基础设施管理方面无差别的繁重工作。SageMaker 训练作业会自动启动一个有弹性的分布式训练集群,监控基础设施并自动从故障中恢复,以确保顺畅的训练体验。训练完成后,SageMaker 将关闭集群,您需要按净训练时间付费。此外,借助 SageMaker 训练作业,您可以灵活地选择最适合单个工作负载的正确实例类型(例如,在 P5 集群上预训练 LLM 或在 p4d 实例上微调开源 LLM),以进一步优化您的训练预算。此外,它还为具有不同技术专业知识水平和不同工作负载类型的 ML 团队提供一致的用户体验。
Amazon SageMaker HyperPod
Amazon SageMaker HyperPod 是一种专用基础设施,可有效管理计算集群以扩展基础模型(FM)开发。它支持先进的模型训练技术、基础设施控制、性能优化和增强的模型可观测性。SageMaker HyperPod 预先配置了 Amazon SageMaker 分布式训练库,使您能够在 AWS 集群实例之间自动拆分模型和训练数据集,以帮助有效利用集群的计算和网络基础设施。它通过自动检测、诊断和恢复硬件故障来实现更具弹性的环境,使您能够连续数月不间断地训练 FM,从而将训练时间缩短多达 40%。
高性能分布式训练
只需几行代码,您就可以将数据并行或模型并行添加到训练脚本中。SageMaker 通过在 AWS GPU 实例中自动拆分模型和训练数据集,可以更快地执行分布式训练。
内置工具可实现最高精度和最低成本
托管型 Spot 训练
SageMaker 可在计算容量可用时自动运行训练作业,从而帮助您将训练成本降低多达 90%。这些训练工作还可以抵御容量变化造成的中断。
调试
Amazon SageMaker Debugger 会实时捕获指标并分析训练作业,因此您可以在将模型部署到生产前快速纠正性能问题。您还可以通过访问底层训练容器,远程连接到 Amazon SageMaker 中的模型训练环境进行调试。
分析工具
灵活且更快的训练
完全自定义
本地代码转换
Amazon SageMaker Python SDK 可帮助您在只需最少代码更改的情况下,将在您首选的 IDE 和本地笔记本中编写的机器学习代码以及相关的运行时系统依赖项作为大规模机器学习模型训练作业执行。您只需要向本地机器学习代码添加一行代码(Python 装饰器)。SageMaker Python SDK 将代码与数据集和工作空间环境设置配合使用,并将其作为 SageMaker 训练作业运行。
自动化机器学习训练工作流
自动化训练工作流使用 Amazon SageMaker Pipelines,可帮助您创建可重复的流程,以针对快速试验和模型再训练编排模型开发步骤。您可以定期或在某些事件启动时自动运行步骤,也可以根据需要手动运行这些步骤。
灵活的训练计划
为了满足您的训练时间表和预算,SageMaker AI 可帮助您制定最经济高效的训练计划,这些计划可使用来自多个计算容量块的计算资源。批准这些训练计划后,SageMaker AI 就会自动配置基础设施,并在这些计算资源上运行训练作业,而不需要任何手动干预,从而节省数周管理培训流程的工作量,让作业与计算可用性保持一致。