Publicado en: Oct 10, 2022
AWS anuncia la disponibilidad general de las instancias Trn1 de Amazon Elastic Compute Cloud (Amazon EC2). Las instancias Trn1 de Amazon EC2 cuentan con la tecnología de los chips de AWS Trainium, que se diseñaron específicamente para aplicaciones de alto rendimiento destinadas al entrenamiento de ML en la nube. Las instancias Trn1 ofrecen el más alto rendimiento para el entrenamiento de aprendizaje profundo de los modelos más comunes de procesamiento de lenguaje natural (NLP) en AWS, a la vez que permiten ahorrar hasta un 50 % en los costos, en comparación con las instancias de EC2 basadas en GPU. Puede comenzar a utilizar las instancias Trn1 mediante los marcos más comunes de ML, como PyTorch y TensorFlow, lo que le permitirá reducir los costos y tiempos de entrenamiento, iterar más rápido para crear modelos más innovadores y aumentar la productividad. Puede utilizar las instancias Trn1 de EC2 para entrenar modelos de procesamiento de lenguaje natural (NLP), de visión artificial y de recomendaciones en una gran variedad de aplicaciones, como reconocimiento de voz, recomendaciones, detección de fraudes, clasificación de imágenes y videos, y previsiones.
Las instancias Trn1 presentan hasta 16 chips de AWS Trainium, un chip de segunda generación de machine learning (ML) que desarrolló AWS después de AWS Inferentia. Las instancias Trn1 son las primeras instancias de EC2 que tienen un ancho de banda de red de hasta 800 Gbps para Elastic Fabric Adapter (EFA). A fin de ofrecer un paralelismo eficiente de datos y de modelos, cada instancia Trn1 cuenta con 512 GB de memoria de gran ancho de banda y entrega hasta 3,4 petaflops de potencia de cómputo de FP16/BF16. También incluye NeuronLink, una interconexión intrainstancia sin bloqueo y de gran ancho de banda. Para admitir los modelos de aprendizaje profundo (DL) de gran escala, las instancias Trn1 se implementan en UltraClusters de EC2. Puede usar los UltraClusters para escalar a hasta 30 000 aceleradores de Trainium, que están interconectados con una red sin bloqueos a escala de petabits. Además, puede acceder bajo demanda a una supercomputadora con una potencia de 6,3 exaflops. Las instancias Trn1 admiten de manera nativa una gran variedad de tipos de datos, incluidos los nuevos FP8 configurables, formas de entrada dinámicas, flujo de control, operadores personalizados de C++ y redondeo estocástico. El kit de desarrollo de software (SDK) de AWS Neuron incluye estas características avanzadas y admite la compilación “justo a tiempo” (JIT) y el modo de depuración ávida. AWS Neuron está integrado con los principales marcos y bibliotecas de ML, como PyTorch, TensorFlow, Megatron-LM, Hugging Face y PyTorch FSDP, para que pueda continuar utilizando sus marcos actuales y ejecutar las aplicaciones haciendo cambios mínimos en los códigos.
Los desarrolladores pueden ejecutar cargas de trabajo de entrenamiento de aprendizaje profundo en instancias Trn1 mediante las AMI de aprendizaje profundo de AWS, los contenedores de aprendizaje profundo de AWS o servicios administrados, como Amazon Elastic Container Service (Amazon ECS) y AWS ParallelCluster, que pronto serán compatibles con Amazon Elastic Kubernetes Service (Amazon EKS), Amazon SageMaker y AWS Batch.
Las instancias Trn1 de Amazon EC2 están disponibles en dos tamaños: trn1.2xlarge, para experimentar con un único acelerador y entrenar modelos pequeños de manera rentable; y trn1.32xlarge, para entrenar modelos de gran escala. Están disponibles en las siguientes regiones de AWS como instancias bajo demanda, instancias reservadas e instancias de spot, o como parte de Savings Plan: Este de EE. UU. (Norte de Virginia) y Oeste de EE. UU. (Oregón).
Para obtener más información sobre las instancias Trn1, consulte el documento Instancias Trn1 de Amazon EC2.