发布于: Apr 13, 2023
今天,AWS 宣布全面推出由 AWS Trainium 加速器提供支持的 Amazon Elastic Compute Cloud (Amazon EC2) Trn1n 实例。Trn1n 实例基于由 Trainium 提供支持的 Trn1 实例的功能构建而成,将第二代 Elastic Fabric Adapter (EFAv2) 的网络带宽提高了一倍,达到 1600 Gbps。随着这次带宽的增加,Trn1n 实例将训练网络密集型生成式人工智能模型(例如大型语言模型 (LLM) 和专家混合模型 (MoE))的时间缩短多达 20%。类似于 Trn1 实例,与其他同类 Amazon EC2 实例相比,Trn1n 实例最多可节省 50% 的训练成本。
为了支持大规模深度学习 (DL) 模型,我们在具有高速 EFAv2 联网功能的 EC2 UltraClusters 中部署了 Trn1n 实例。与第一代 EFA 相比,EFAv2 通过将集体通信性能提高多达 50%,加快了分布式训练。您可以使用 UltraClusters 扩展到多达 30,000 个 Trainium 加速器,并按需访问计算性能为 6.3 exaflops 的超级计算机。
与 Trn1 类似,每个 Trn1n 实例都有高达 512 GB 的高带宽内存,提供高达 3.4 petaflops 的 FP16/BF16 计算能力,并具有 NeuronLink(这是一种实例内高带宽非阻塞互连)。AWS Neuron SDK 与 PyTorch 和 TensorFlow 等热门的机器学习 (ML) 框架原生集成,因此您可以继续使用现有框架和应用程序代码在 Trn1n 上训练 DL 模型。开发人员可以在 Trn1n 实例上使用 AWS 深度学习 AMI、AWS 深度学习容器或托管服务(如 Amazon Elastic Container Service (Amazon ECS)、Amazon Elastic Kubernetes Service (Amazon EKS)、AWS ParallelCluster、Amazon SageMaker 和 AWS Batch)运行 DL 训练工作负载。
要了解有关 Trn1n 实例的更多信息,请参阅 Amazon EC2 Trn1n 实例产品详情页面。要开始使用 Trn1n 实例,请参阅 Neuron 文档。