Publicado en: Jun 6, 2018
Las AMI de aprendizaje profundo de AWS para Ubuntu y Amazon Linux ahora vienen preinstaladas y completamente configuradas con Horovod, un entorno de trabajo de entrenamiento distribuido popular y de código abierto para escalar entrenamiento con TensorFlow en múltiples GPU.
Con la adición de Horovod, los desarrolladores de aprendizaje automático pueden estimular más el desempeño del entrenamiento de la estructura optimizada de Tensorlow 1.8 disponible en las AMI, al entrenar desde una única GPU hasta múltiples GPU en las instancias P3 de Amazon EC2.
Horovod usa el modelo de Interfaz de Paso de Mensajes (Message Passing Interface, MPI), un estándar popular para la transmisión de mensajes y la administración de comunicaciones entre nodos en entornos de computación distribuida de alto desempeño. En comparación con el modelo de entrenamiento distribuido de TensorFlow estándar, la implementación de la MPI para Horovod brinda un modelo de programación más simple que permite a los desarrolladores escalar con facilidad sus programas de entrenamiento existentes de una única GPU con cambios de código mínimos.
Hovorod también usa NVIDIA Collective Communications Library (NCCL) para las implementaciones optimizadas de múltiples GPU y primitivas de comunicación de nodos múltiples, como all-reduce, para lograr un desempeño más rápido en las instancias P3.
En nuestras pruebas de Horovod, entrenamos un modelo ResNet-50 con el conjunto de datos de ImageNet mediante nuestra estructura optimizada de TensorFlow 1.8 y OpenMPI 1.10.7 en una única instancia P3 p3.16xlarge, 1,2 veces más rápida que con el modelo de entrenamiento distribuido de TensorFlow estándar.
Las últimas AMI de aprendizaje profundo de AWS ahora están disponibles en el AWS Marketplace. Puede empezar a trabajar con las AMI al usar nuestro tutorial de introducción o al visitar nuestra guía para desarrolladores para obtener más tutoriales, recursos y notas de la versión. También se puede suscribir a nuestro foro de debate, donde anunciamos nuestros lanzamientos nuevos y podrá publicar sus preguntas.