Publicado: Jun 6, 2018
As AMIs do AWS Deep Learning para Ubuntu e Amazon Linux agora vêm pré-instaladas e totalmente configuradas com Horovod, uma conhecida estrutura de treinamento de código aberto distribuída para dimensionar o treinamento do TensorFlow em várias GPUs.
Com a inclusão do Horovod, os desenvolvedores de Machine Learning podem impulsionar ainda mais a performance do treinamento na criação otimizada do TensorFlow 1.8 disponível nas AMIs ao deixar de treinar em uma GPU para treinar em várias GPUs nas instâncias P3 do Amazon EC2.
O Horovod usa o modelo Message Passing Interface (MPI – Interface de transmissão de mensagens), um padrão popular para transmitir mensagens e gerenciar a comunicação entre os nós nos ambientes de computação distribuídos de alta performance. Comparado ao modelo de treinamento distribuído padrão do TensorFlow, a implementação do MPI do Horovod oferece um modelo de programação mais simplificado que permite que os desenvolvedores dimensionem facilmente seus programas de treinamento já existentes de uma única GPU com alterações mínimas nos códigos.
O Horovod também usa a NVIDIA Collective Communications Library (NCCL – Biblioteca de comunicações coletivas do NVIDIA) para implementações otimizadas de primitivos de comunicação de vários nós e várias GPUs, por exemplo, com uma redução total para alcançar uma performance mais rápida em instâncias P3.
Em nossos testes do Horovod, treinar um modelo ResNet-50 com o conjunto de dados ImageNet usando nossa compilação otimizada do TensorFlow 1.8 e OpenMPI 1.10.7 em uma única instância P3 p3.16xlarge é 1,2x mais rápido do que usar o modelo de treinamento distribuído padrão d TensorFlow.
As mais recentes AMIs do AWS Deep Learning agora estão disponíveis no AWS Marketplace. Você pode começar a usar as AMIs com nosso tutorial de introdução ou acessar nosso guia do desenvolvedor para consultar mais tutoriais, recursos e notas de release. Você também pode assinar nosso fórum de discussão para obter anúncios de lançamentos e publicar suas perguntas.