Publicado en: Apr 13, 2023
Hoy, AWS anuncia la disponibilidad general de las instancias TRN1n de Amazon Elastic Compute Cloud (Amazon EC2), que funcionan con aceleradores AWS Trainium. Basándose en las capacidades de las instancias Trn1 con tecnología de Trainium, las instancias de TRN1n duplican el ancho de banda de la red hasta alcanzar los 1600 Gbps del Elastic Fabric Adapter (EFAV2) de segunda generación. Con este aumento del ancho de banda, las instancias de TrN1n ofrecen un tiempo de entrenamiento hasta un 20% más rápido para entrenar modelos de IA generativa con uso intensivo de la red, como los modelos de lenguaje amplio (LLM) y la mezcla de expertos (MoE). Al igual que las instancias de Trn1, las instancias de Trn1n ofrecen hasta un 50% de ahorro en costos de formación frente a otras instancias de Amazon EC2 comparables.
Para admitir los modelos de aprendizaje profundo (DL) de gran escala, las instancias de TrN1n se implementan en UltraClusters de EC2 con redes EFAV2 de alta velocidad. EFAv2 acelera el entrenamiento distribuido al ofrecer una mejora de hasta un 50 % en el rendimiento de las comunicaciones colectivas en comparación con el servicio EFA de primera generación. Puede utilizar los UltraClusters para escalar hasta 30 000 aceleradores Trainium y obtener acceso bajo demanda a un superordenador con un desempeño infomático de 6,3 exaflops.
De manera similar a Trn1, cada instancia Trn1n cuenta con hasta 512 GB de memoria de gran ancho de banda y entrega hasta 3,4 petaflops de potencia de cómputo de FP16/BF16. También incluye NeuronLink, una interconexión intrainstancia sin bloqueo y de gran ancho de banda. El SDK de AWS Neuron se integra de forma nativa con los marcos de aprendizaje automático (ML) más populares, como PyTorch y TensorFlow, para que pueda seguir utilizando los marcos y el código de aplicación existentes para entrenar modelos de DL en TRN1n. Los desarrolladores pueden ejecutar cargas de trabajo de entrenamiento de aprendizaje profundo en instancias Trn1n mediante las AMI de aprendizaje profundo de AWS, los contenedores de aprendizaje profundo de AWS o servicios administrados, como Amazon Elastic Container Service (Amazon ECS), Amazon Elastic Kubernetes Service (Amazon EKS), AWS ParallelCluster, Amazon SageMaker y AWS Batch.
Para obtener más información sobre las instancias TRN1n, consulte la página de información del producto Instancias TRN1n de Amazon EC2. Para empezar a utilizar las instancias de TrN1n, consulte la documentación de Neuron.