适用于 PyTorch 的 Amazon S3 连接器现在支持分布式检查点

发布于: 2024年11月22日

适用于 PyTorch 的 Amazon S3 连接器现在支持分布式检查点 (DCP),从而缩短了向 Amazon S3 写入检查点的时间。DCP 是一项 PyTorch 功能,用于并行保存和加载多个训练过程中的机器学习 (ML) 模型。PyTorch 是一个开源 ML 框架,用于构建和训练 ML 模型。

分布式训练作业通常会运行几个小时甚至几天,并且会经常编写检查点以提高容错能力。例如,训练大型基础模型的作业通常会运行几天,并生成大小为数百千兆字节的检查点。将 DCP 与适用于 PyTorch 的 Amazon S3 连接器一起使用,有助于缩短将这些大型检查点写入 Amazon S3 的时间,确保计算资源得到充分利用,最终降低计算成本。

Amazon S3 Connector for PyTorch 是一个开源项目。要开始使用,请访问 GitHub 页面