Publié le: Jun 6, 2018
Les AMI AWS Deep Learning pour Ubuntu et Amazon Linux sont désormais pré-installées et entièrement configurées avec Horovoc, une infrastructure de formation distribuée en code source libre populaire permettant de mettre à l'échelle la formation TensorFlow sur de multiples GPU.
Avec l'ajout d'Horovod, les développeurs de Machine Learning peuvent dynamiser les performances de formation de la génération optimisée de TensorFlow 1.8 disponible dans les AMI en effectuant la formation depuis un GPU unique vers de multiples GPU sur des instances P3 Amazon EC2.
Horovod utilise le modèle MPI (Message Passing Interface), une norme populaire de transmission des messages et de gestion de la communication entre les noeuds dans des environnements informatiques distribués hautement performants. Par rapport au modèle de formation distribué TensorFlow standard, la mise en oeuvre MPI d'Horovod fournit un modèle de programmation plus simplifié qui permet aux développeurs de mettre facilement à l'échelle leurs programmes de formation sur GPU unique avec un minimum de modification à apporter au code.
Horovod utilise également la NVIDIA Collective Communications Library (NCCL) pour optimiser les mises en oeuvre de primitives de communication multi-GPU et multi-noeuds tels que tout réduire pour parvenir à des performances plus rapides sur les instances P3.
Dans nos tests d'Horovod, nous avons formé un modèle ResNet-50 avec l'ensemble de données ImageNet à l'aide de notre génération optimisée de TensorFlow 1.8 et OpenMPI 1.10.7 sur une instance unique p3.16xlarge P3 1,2 fois plus rapide qu'en utilisant le modèle de formation distribuée TensorFlow standard.
Les dernières AMI AWS Deep Learning sont désormais disponibles sur l'AWS Marketplace. Vous pouvez démarrer avec les AMI en suivant notre didacticiel de mise en route ou consultez notre Manuel du développeur pour obtenir davantage de didacticiels, ressources et notes de mise à jour. Vous pouvez également vous abonner à notre forum de discussion pour recevoir des annonces de nouveau lancement et poser vos questions.