发布于: Dec 1, 2021
今天,我们很高兴宣布 Amazon SageMaker 训练编译器,这是 SageMaker 的一项新功能,可通过更高效地使用 GPU 实例,可以将深度学习 (DL) 模型的训练速度提高 50%。
用于自然语言处理 (NLP) 和计算机视觉 (CV) 任务的最先进的 DL 模型是复杂的多层神经网络,具有数十亿个参数,可能需要数千个 GPU 小时来训练。即使对这些模型进行微调优化,有时也需要几天的时间,这会导致高昂的成本并减缓创新进程。为了加速这一过程,您现在可以使用 SageMaker 训练编译器,只需对现有的训练脚本进行最少的更改。SageMaker 训练编译器被集成到 SageMaker 中最新版本的 PyTorch 和 TensorFlow 中,并在这些框架的保护下工作,因此当它被启用时,不需要对您的工作流进行其他更改。
SageMaker 训练编译器通过将 DL 模型从其高级语言表示转换为硬件优化指令来加速训练。更具体地说,SageMaker Training Compiler 编译使图形级优化(运算符融合、内存规划和代数简化)、数据流级优化(布局转换、公共子表达式消除)和后端优化(内存延迟隐藏、面向循环的优化)能够更有效地使用硬件资源,从而更快地训练模型。从这个加速训练过程中返回的模型构件与没有启用这些训练优化时的情况相同。
Sagemaker 训练编译器从 Hugging Face 在最流行的 NLP DL 模型中进行测试,包括 bert-base-cased、bert-base-uncased、distilbert-base-uncased、distilbert-base-uncased-finetuned-sst-2-english、gpt2、roberta-base、roberta-large、bert-base-chinese 和 xlm-roberta-base。借助于 SageMaker 训练编译器,这些模型的训练速度可提高 50%。