Publicado: Apr 13, 2023
Hoje, a AWS anuncia a disponibilidade geral das instâncias Trn1n do Amazon Elastic Compute Cloud (Amazon EC2), que são desenvolvidas pelos aceleradores do AWS Trainium. Com base nos recursos das instâncias Trn1 com tecnologia Trainium, as instâncias Trn1n dobram a largura de banda da rede para 1600 Gbps do Elastic Fabric Adapter (EFav2) de segunda geração. Com esse aumento da largura de banda, as instâncias Trn1n oferecem tempo de treinamento até 20% mais rápido para o treinamento de modelos generativos de IA que usam muita rede, como os grandes modelos de linguagem (LLMs, large language models) e a mistura de especialistas (MoE, mixture of experts). Semelhantes às instâncias Trn1, as instâncias Trn1n oferecem até 50% de economia nos custos de treinamento em relação a outras instâncias comparáveis do Amazon EC2.
Para oferecer suporte a modelos de aprendizado profundo (DL) em grande escala, as instâncias Trn1n são implantadas em EC2 UltraClusters com rede EFAv2 de alta velocidade. O EFAv2 acelera o treinamento distribuído oferecendo uma melhoria de até 50% na performance das comunicações coletivas em relação ao EFA de primeira geração. Você pode usar os UltraClusters para escalar até 30.000 aceleradores Trainium e obter acesso sob demanda a um supercomputador com 6,3 exaflops de desempenho computacional.
Similar à Trn1, cada instância Trn1n tem até 512 GB de memória com alta largura de banda, disponibiliza até 3,4 petaflops de capacidade computacional FP16/BF16 e oferece o NeuronLink, uma interconexão não bloqueadora de alta largura de banda interna da instância. O AWS Neuron SDK se integra nativamente a frameworks bem conhecidos de machine learning (ML), como PyTorch e TensorFlow, de modo que você pode continuar a usar frameworks e código de aplicativo para treinar modelos de DL na Trn1n. Os desenvolvedores podem executar workloads de treinamento DL em instâncias Trn1n usando AMIs de deep learning da AWS, contêineres de deep learning da AWS ou serviços gerenciados, como Amazon Elastic Container Service (Amazon ECS), Amazon Elastic Kubernetes Service (Amazon EKS), AWS ParallelCluster, Amazon SageMaker e AWS Batch.
Para saber mais sobre as instâncias Trn1n, consulte a página de detalhes do produto Instâncias Trn1n do Amazon EC2. Para começar a usar as instâncias Trn1n, consulte a documentação do Neuron.