張貼日期: Jun 6, 2018
適用於 Ubuntu 和 Amazon Linux 的 AWS 深度學習 AMI 現已預先安裝並完整設定熱門的開源分散式訓練框架 Horovod,有效擴充多 GPU TensorFlow 訓練。
加入 Horovod 後,機器學習開發人員在 Amazon EC2 P3 執行個體上就能從原本訓練單一 GPU,推進到訓練多個 GPU,進一步提升 AMI 中 TensorFlow 1.8 最佳化組建的訓練效能。
Horovod 主要採用訊息傳遞介面 (MPI) 模型,這是在高效能分散式運算環境節點間傳遞訊息和管理通訊內容的熱門標準。相較於標準 TensorFlow 分散式訓練模型,使用 Horovod 實作 MPI 不僅進一步簡化程式設計模型,開發人員也幾乎不必更改程式碼,即可輕鬆擴充現有的單一 GPU 訓練程式。
另外,Horovod 也使用 NVIDIA Collective Communications Library (NCCL),改善實作 All-Reduce 等多 GPU 和多節點通訊基元,使 P3 執行個體達到更高效能。
在我們的 Horovod 測試中,使用 TensorFlow 1.8 最佳化組建和 OpenMPI 1.10.7,在單一 p3.16xlarge P3 執行個體中訓練具有 ImageNet 資料集的 ResNet-50 模型,比起使用標準 TensorFlow 分散式訓練模型快 1.2 倍。
目前 AWS Marketplace 已推出最新 AWS 深度學習 AMI。如需更多教學課程、資源及版本備註,請善用我們的入門教學課程或瀏覽我們的開發人員指南,以開始使用 AMI。您也可以訂閱我們的開發論壇,以掌握最新消息及發文提問。