Inserito il: Jun 6, 2018
Le AMI di AWS Deep Learning per Ubuntu e Amazon Linux vengono oggi fornite con la preinstallazione e la configurazione completa di Horovod, un noto framework di formazione distribuito open source per dimensionare la formazione TensorFlow su più GPU.
Grazie all'aggiunta di Horovod, gli sviluppatori di apprendimento automatico possono incrementare ulteriormente le prestazioni della formazione della build ottimizzata di TensorFlow 1.8, disponibile nelle AMI tramite la formazione da un'unica GPU a più GPU, sulle istanze P3 di Amazon EC2.
Horovod adotta il modello MPI (Message Passing Interface), uno standard diffuso per il trasferimento dei messaggi e la gestione della comunicazione tra i nodi negli ambienti informatici distribuiti ad alte prestazioni. Rispetto al modello di formazione distribuito TensorFlow standard, l'implementazione MPI di Horovod assicura un modello di programmazione maggiormente semplificato che consente agli sviluppatori di dimensionare facilmente i loro programmi di formazione a singola GPU con modifiche di codice minime.
Horovod utilizza anche NVIDIA Collective Communications Library (NCCL) per implementazioni ottimizzate di primitivi di comunicazione a più GPU e a più nodi come allreduce per ottenere prestazioni più rapide sulle istanze P3.
Nei nostri test di Horovod, la formazione di un modello ResNet-50 con il dataset ImageNet utilizzando la nostra build ottimizzata di TensorFlow 1.8 e OpenMPI 1.10.7 su un'unica istanza p3.16xlarge P3 è stata eseguita 1,2 volte più rapidamente rispetto all'uso del modello di formazione distribuito TensorFlow standard.
Le più recenti AMI di AWS Deep Learning sono oggi disponibili su AWS Marketplace. Puoi cominciare a utilizzare le AMI seguendo il nostro tutorial introduttivo o consultando la nostra guida per sviluppatori per altri tutorial, risorse e note di rilascio. Puoi anche iscriverti al nostro forum di discussione per ricevere gli ultimi annunci sui lanci e pubblicare le tue domande.