投稿日: Jun 6, 2018
Ubuntu と Amazon Linux 向けの AWS 深層学習 AMI に Horovod がプリインストールされ、構成済みの状態で出荷されます。Horovod は人気のオープンソース分散型トレーニングフレームワークで、複数の GPU で TensorFlow トレーニングをスケールします。
Horovod を加えることで、機械学習の開発者は Amazon EC2 P3 インスタンス上で単独の GPU から複数の GPU までトレーニングすることにより、AMI で使用できる最適化された TensorFlow 1.8 ビルドのトレーニングパフォーマンスを格段に向上できるようになります。
Horovod は高パフォーマンス分散コンピューティング環境のノード間で、メッセージのパッシングとコミュニケーション管理で人気の標準であるメッセージパッシングインターフェイス (MPI) モデルを使用します。標準の TensorFlow 分散トレーニングモデルに比べて、Horovod の MPI 実装には、開発者が既存の単一 GPU トレーニングモデルを最小限のコード変更で簡単にスケールできるようにするより簡略化されたプログラミングモデルを提供します。
Horovod はまた、NVIDIA Collective Communications Library (NCCL) を使用して、マルチ GPU の実装とマルチノードコミュニケーションの基本要素 (P3 インスタンスでのパフォーマンスを向上するための全削減など) を最適化します。
私たちの実行した Horovod テストでは、標準の TensorFlow 分散トレーニングモデルを使用するより、1.2 倍高速の TensorFlow 1.8 の最適化ビルドと OpenMPI 1.10.7 を単一の p3.16xlarge P3 インスタンスで使用して、ResNet-50 モデルと ImageNet データセットをトレーニングしました。
最新の AWS 深層学習 AMI は現在、すべての AWS Marketplace でご利用いただけます。使用を開始するには、開始方法チュートリアルを使用するか、他のチュートリアル、リソース、リリースノートについては開発者ガイドをご覧ください。また、フォーラムをサブスクライブして、開始の通知を受け取ったり、質問を投稿したりすることもできます。