发布于: Jun 6, 2018
现在,适用于 Ubuntu 和 Amazon Linux 的 AWS Deep Learning AMI 预先安装了并全面配置了 Horovod,Horovod 是一个热门开源分布式训练框架,可在多个 GPU 上扩展 TensorFlow 训练。
增加 Horovod 后,机器学习开发人员可从训练 Amazon EC2 P3 实例上的单个 GPU 增加至训练多个 GPU,从而利用 AMI 提供的 TensorFlow 1.8 的优化版本进一步提升训练性能。
Horovod 使用消息传递接口 (MPI) 模型,这是一种在高性能分布式计算环境中传递消息和管理节点之间的通信的常用标准。与标准的 TensorFlow 分布式训练模型相比,Horovod 的 MPI 实施提供更简单的编程模型,可让开发人员以最小的代码更改量,轻松扩展现有的单 GPU 训练程序。
Horovod 还使用 NVIDIA Collective Communications Library (NCCL) 优化多 GPU 和多节点通信原语(例如用于在 P3 示例实现更快的性能的 all-reduce)的实施。
我们在对 Horovod 进行测试时,使用 TensorFlow 1.8 的优化版本和 OpenMPI 1.10.7 对单个 p3.16xlarge P3 示例上包含 ImageNet 数据集的 ResNet-50 模型进行了训练,结果表明训练速度是使用标准 TensorFlow 分布式训练模型的 1.2 倍。
最新的 AWS Deep Learning AMI 现已通过 AWS Marketplace 提供。您可以根据我们的入门教程开始使用 AMI,或访问开发人员指南,查找更多相关教程、资源和发行说明。您还可以订阅我们的开发论坛,了解新发布公告并提出问题。