Amazon EC2 Trn2 实例和 UltraServers

最强大的 EC2 计算,用于生成式人工智能训练和推理

为何选择 Amazon EC2 Trn2 实例和 UltraServers?

Amazon EC2 Trn2 实例由 16 个 AWS Trainium2 芯片提供支持,专为生成式人工智能而构建,是用于训练和部署具有数千亿至数万亿参数的模型的功能强大的 EC2 实例。与当前一代基于 GPU 的 EC2 P5e 和 P5en 实例相比,Trn2 实例的性价比高出 30-40%。借助 Trn2 实例,您可以获得先进的训练和推理性能,同时降低成本,从而缩短训练时间,加快迭代速度,并提供基于人工智能的实时体验。您可以使用 Trn2 实例训练和部署模型,包括大型语言模型(LLM)、多模态模型和扩散转换器,以构建下一代生成式人工智能应用程序。

为了缩短训练时间并为要求最严苛、最先进的模型提供突破性的响应时间(每分词延迟),您可能需要比单个实例所能提供的更多的计算和内存。Trn2 UltraServers 使用 NeuronLink(我们专有的芯片间互连技术)连接四个 Trn2 实例中的 64 个 Trainium2 芯片,将单个节点的计算、内存和网络带宽提高了四倍,在 AWS 上为深度学习和生成式人工智能工作负载提供了突破性的性能。在推理方面,UltraServers 有助于提供业界领先的响应时间,打造最佳的实时体验。在训练方面,UltraServers 以比独立实例更快的速度并行运行模型集体通信,从而提高模型训练速度和效率。

Trn2 实例和 Trn2 UltraServers 原生支持 PyTorch 和 JAX 等常用的机器学习(ML)框架,您可以轻松上手。

优势

Trn2 实例是功能强大的 EC2 实例,可帮助您缩短训练时间并为终端用户提供实时推理体验。Trn2 实例采用 16 个 Trainium2 芯片,这些芯片使用我们专有的芯片间互连技术 NeuronLink 进行互连,可提供高达每秒 20.8 FP8 千亿次浮点运算的计算。Trn2 实例总共可提供 1.5 TB 的 HBM3,每秒 46 TB(TBps)的内存带宽,以及每秒 3.2 TB(Tbps)网络连接的 Elastic Fabric Adapter 网络连接(EFAv3)。Trn2 UltraServers(现已提供预览版)拥有 64 个使用 NeuronLink 进行连接的 Trainium2 芯片,可提供高达每秒 83.2 千万亿次的 FP8 计算、6 TB 的总高带宽内存、每秒 185 TBps 的总内存带宽以及 12.8 Tbps 的 EFAv3 网络连接。

为实现高效的分布式训练,Trn2 实例提供 3.2 Tbps 的 EFAv3 网络连接,Trn2 UltraServers 提供 12.8 Tbps 的 EFAv3 网络连接。EFA 基于 AWS Nitro System 构建,这意味着通过 EFA 进行的所有通信在传输过程中都经过加密,不会造成任何性能损失。EFA 还采用先进的流量路由和拥塞控制协议,使其能够可靠地扩展到数十万个 Trainium2 芯片。Trn2 实例和 UltraServers 正在 EC2 UltraClusters 中部署,可在单个 PB 级无阻塞网络上通过数以万计的 Trainium 芯片实现横向扩展分布式训练。

与当前一代基于 GPU 的 EC2 P5e 和 P5en 实例相比,Trn2 实例的性价比高出 30-40%。

Trn2 实例的能效比 Trn1 实例高 3 倍。此类实例和底层芯片使用先进的硅芯片工艺以及硬件和软件优化,在大规模运行生成式人工智能工作负载的同时提供高能效。

AWS Neuron SDK 可帮助您从 Trn2 实例和 UltraServers 中提取全部性能,以便您可以专注于构建和部署模型,加快产品上市时间。Neuron 与 JAX、PyTorch 以及 Hugging Face、PyTorch Lightning 和 NeMo 等基本库原生集成。Neuron 使用开源 PyTorch 库 NxD Training 和 NxD Inference,对分布式训练和推理进行了开箱即用的优化,同时为分析和调试提供了深入的见解。Neuron 还支持 OpenXLA(包括稳定的 HLO 和 GSPMD),让 PyTorch/XLA 和 JAX 开发人员能够使用 Neuron 针对 Inferentia 和 Trainium 的编译器优化。通过 Neuron,您可以在 Amazon SageMaker、Amazon EKS、Amazon ECS、AWS ParallelCluster 和 AWS Batch 等服务以及 Ray(Anyscale)、Domino Data Lab 和 Datadog 等第三方服务中使用 Trn2 的实例。

功能

Trn2 实例采用 16 个 Trainium2 芯片,这些芯片使用 NeuronLink 进行连接,可提供高达每秒 20.8 千亿次浮点运算的 FP8 计算能力。Trn2 UltraServers 将 NeuronLink 连接扩展到四个 Trn2 实例上的 64 个 Trainium2 芯片,以提供高达每秒 83.2 千亿次浮点运算的 FP8 计算能力。

Trn2 实例提供 1.5 TB 的加速器内存和 46 TBps 的总内存带宽。Trn2 UltraServers 提供 6 TB 的共享加速器内存和 185 TBps 的总内存带宽,可容纳超大型基础模型。

为支持超大型基础模型的扩展分布式训练,Trn2 实例提供 3.2 Tbps 的 EFAv3 网络带宽,Trn2 UltraServers 提供 12.8 Tbps 的 EFAv3 网络带宽。与 EC2 UltraClusters 结合使用时,EFAv3 可提供比 EFAv2 更低的网络延迟。每个 Trn2 实例支持高达 8 TB 的本地 NVMe 存储,每个 Trn2 UltraServer 支持高达 32 TB 的本地 NVMe 存储,以便更快地访问大型数据集。

Trn2 实例和 UltraServers 支持 FP32、TF32、BF16、FP16 和可配置的 FP8(cFP8)数据类型。它还支持先进的人工智能优化,包括 4 倍稀疏性(16:4)、随机舍入和专用集体引擎。Neuron Kernel 接口(NKI)使用基于 Python 的环境和类似于 Triton 的界面,可直接访问指令集架构(ISA),让您能够创新性能优于现有技术的新模型架构和高度优化的计算内核。

Neuron 支持 Hugging Face 模型中心的 10 万多个模型,用于在 Trn2 上进行训练和部署,包括 Llama 和 Stable Diffusion 等常用模型架构。Neuron 与 JAX、PyTorch 以及 NeMo、Hugging Face、PyTorch Lightning、Ray、Domino Data Lab 和 Data Dog 等基本工具、框架和库原生集成。它能为分布式训练和推理优化开箱即用的模型,同时为分析和调试提供深入的见解。Neuron 还与 Amazon SageMaker、Amazon EKS、Amazon ECS、AWS ParallelCluster 和 AWS Batch 等服务集成。

客户和合作伙伴评价

以下是客户和合作伙伴如何计划使用 Amazon EC2 Trn2 实例实现业务目标的一些示例。

  • Anthropic

    Anthropic 每天都有数百万人依靠 Claude 完成工作。我们宣布与 AWS 合作取得两项重大进展:首先是 Claude 3.5 Haiku 的新“延迟优化模式”,通过 Amazon Bedrock 在 Trainium2 上的运行速度提高了 60%。其次是 Rainier 项目,这是由数十万个 Trainium2 芯片组成的新集群,可提供数百个百亿亿次运算,是我们以前集群规模的五倍多。Rainier 项目将帮助推动我们的研究和下一代规模扩展。对于我们的客户而言,这意味着更智能、更低价和更快速。我们不仅要构建更快的人工智能,还要构建可扩展的可信赖人工智能。

    Anthropic 首席计算官 Tom Brown
  • Databricks

    借助 Databricks 的 Mosaic AI,组织能够构建和部署高质量的代理系统。它原生建立在数据湖仓之上,让客户能够轻松安全地使用企业数据自定义模型,并提供更准确的输出和特定领域的输出。得益于 Trainium 的高性能和经济高效,客户能够以低成本在 Mosaic AI 上扩展模型训练。随着全球所有客户群对 Mosaic AI 的需求不断扩大,Trainium2 的可用性将为 Databricks 及其客户带来重大益处。Databricks 是全球最大的数据和人工智能公司之一,其计划使用 TRN2 为其客户交付更好的结果,并将总拥有成本降低多达 30%。

    Databricks 生成式人工智能副总裁 Naveen Rao
  • poolside

    在 poolside,我们将建立由人工智能推动大多数具有经济价值的工作和科学进步的世界。我们相信,软件开发将是神经网络中第一个达到人类级智能的主要能力,因为在这个领域,我们可以完美结合搜索和学习方法。为实现这一点,我们正在构建基础模型、API 和助手,助力开发人员手动(或通过键盘)释放生成式人工智能的强大力量。启用这项技术的主要关键是我们用于构建和运行产品的基础设施。借助 AWS Trainium2,我们的客户将能够以与其他人工智能加速器不同的性价比扩展 poolside 的使用。此外,我们计划使用 Trainium2 UltraServers 训练未来的模型,与 EC2 P5 实例相比,预计可节省 40% 的成本。

    poolside 首席技术官兼联合创始人 Eiso Kant
  • Itaú Unibanco

    Itaü Unibanco 的目的是改善人与金钱的关系,对人们的生活产生积极影响,同时扩大转型机会。Itaü Unibanco 相信每位客户都是独一无二的,我们力争通过直观的数字化旅程满足客户的需求,利用人工智能的强大力量不断适应消费者习惯。

    我们已在各种任务中测试过 AWS Trainium 和 Inferentia,从标准推理到微调应用程序,不一而足。借助这些人工智能芯片的性能,我们得以在研发中实现重要的里程碑。对于批量和在线推理任务,与 GPU 相比,我们的吞吐量提高了 7 倍。性能的提升推动了更多使用案例在整个组织中的扩展。最新一代的 Trainium2 芯片为 GenAI 带来突破性的功能,为 Itau 的创新打开了大门。

    Itaü Unibanco 数据科学主管 Vitor Azeka
  • NinjaTech AI

    Ninja 是一款一体化人工智能代理,可提供无限的生产力:只需一次订阅,即可无限访问全世界优质的人工智能模型以及顶级人工智能技能,如写作、编码、头脑风暴、图像生成、在线研究。Ninja 是代理平台,提供“SuperAgent”服务,该服务使用代理混合,具有世界一流的准确性,可与前沿基础模型相媲美(在某些类别中甚至更胜一筹)。Ninja 的代理技术需要最高性能的加速器,以提供客户期望的独特实时体验。 

    AWS TRN2 的推出让我们兴奋不已,因为我们相信,它将为基于 Llama 3.1 405B 的核心模型 Ninja LLM 提供最佳的单位令牌成本性能和目前可能的最快速度。Trn2 的低延迟、极具竞争力的价格和按需可用性令人惊叹;我们对 Trn2 的到来感到无比兴奋!

    NinjaTech AI 创始人兼首席执行官 Babak Pahlavan
  • Ricoh

    RICOH 机器学习团队开发工作场所解决方案和数字化转型服务,旨在管理和优化企业解决方案中的信息流。

    迁移到 Trn1 实例简单又快捷。我们利用由 4096 个 Trainium 芯片组成的集群,仅用 8 天时间就可完成 130 亿参数 LLM 的预训练! 在我们的小型模型取得成功后,我们基于 Llama-3-Swallow-70B 对更大的新 LLM 进行微调,与使用 AWS 中最新的 GPU 计算机相比,利用 Trainium,我们的训练成本得以降低 50%,能效提高 25%。我们很高兴能利用最新一代 AWS AI 芯片 Trainium2,继续以最低成本为客户提供最佳性能。

    Ricoh 数字技术开发中心主任 Yoshiaki Umetsu
  • Arcee AI

    Arcee AI 提供企业级生成式人工智能平台 Arcee Orchestra,该平台由我们行业领先的小语言模型(SLM)提供支持。Arcee Orchestra 可帮助客户轻松构建代理式人工智能工作流,自动将任务路由到专门的 SLM,以提供详细、可信的响应,且数据无需离开其 VPC。使用 AWS Trainium 和 Inferentia 实例,我们能够为客户提供无与伦比的性价比。例如,在使用基于 Inferentia2 的实例时,与次优的基于 GPU 的实例相比,我们的 SuperNova-Lite 80 亿参数模型可在不影响性能的前提下,将推理工作负载的成本效益提高 32%。我们很高兴能利用最新一代 AWS AI 芯片 Trainium2,继续以最低成本为客户提供最佳性能。

    Arcee AI 首席宣传官 Julien Simon
  • PyTorch

    我最喜欢 AWS Neuron NxD Inference 库的一点是它与 PyTorch 模型的无缝集成。NxD 的方法简单快捷,且对用户友好。我们的团队能够在很短的时间内以最小的代码改动上线 HuggingFace PyTorch 模型。启用连续批处理和推测解码等高级功能非常简单。这种易用性可提高开发人员的工作效率,让团队能够将更多精力放在创新上,减少对集成挑战的关注。

    Meta PyTorch 合作伙伴工程主管 Hamid Shojanazeri
  • Refact.ai

    Refact.ai 提供全面的人工智能工具,例如由检索增强生成(RAG)驱动的代码自动完成,以提供更准确的建议,以及使用专有和开源模型的上下文感知聊天。

    与 EC2 G5 实例相比,客户发现 EC2 Inf2 实例的性能可提高多达 20%,每美元令牌数可提升 1.5 倍。Refact.ai 的微调功能可进一步增强客户了解和适应组织独特代码库和环境的能力。我们也很高兴提供 Trainium2 的功能,这将为我们的工作流程带来更快、更高效的处理能力。这项先进的技术将帮助我们的客户提高开发人员的工作效率,同时保持代码库的严格安全标准,从而加快软件开发流程。

    Refact.ai 首席执行官兼创始人 Oleg Klimov
  • Karakuri Inc.

    KARAKURI 构建人工智能工具,以提高基于 Web 的客户支持效率并简化客户体验。这些工具包括配备生成式人工智能功能的人工智能聊天机器人、常见问题解答集中工具和电子邮件回复工具,所有这些都可以提高客户支持的效率和质量。利用 AWS Trainium,我们成功地训练了 KARAKURI LM 8x7B Chat v0.1。对我们这样的初创企业而言,我们需要优化构建时间以及训练 LLM 所需的成本。在 AWS Trainium 和 AWS 团队的支持下,我们能够在短时间内开发出实用级 LLM。此外,通过采用 AWS Inferentia,我们得以构建快速且经济高效的推理服务。我们对 Trainium2 充满信心,因为它将彻底改变我们的训练流程,将我们的训练时间缩短 2 倍,并将效率提升到新的高度!

    Karakuri Inc 联合创始人 Tomofumi Nakayama
  • ELYZA

    ELYZA 是一家开发大型语言模型(LLM)、支持公司使用生成式人工智能并提供人工智能 SaaS 的 GenAI 公司。借助 Amazon 的 inferentia2 加速器,我们能够实现高吞吐量和低延迟,同时显著降低成本,这对于构建 LLM 演示服务至关重要。通过将这一基础设施与推测解码技术相结合,我们成功地将原有推理速度提高了一倍。与 Inferentia2 相比,Trainium2 的推理能力有了惊人的提升,这显示出了巨大的前景,我们迫不及待地想看看它将如何推动我们的工作取得变革性成果。

    ELYZA 首席技术官 Kota Kakiuchi
  • Stockmark Inc.

    Stockmark 以“重塑价值创造机制,推动人类进步”为使命,通过提供前沿的自然语言处理技术,帮助众多企业创建和打造创新业务。Stockmark 的新数据分析和收集服务 Anews and SAT 是一项数据结构服务,通过组织存储在组织中的各种形式的信息,显著提高生成式人工智能的使用,它要求我们重新思考如何构建和部署模型,以支持这些产品。借助 256 个 Trainium 加速器,我们开发并发布了 stockmark-13b,这是一个具有 130 亿个参数的大型语言模型,在包含 2200 亿个令牌的日语语料库数据集上从头开始进行了预训练。Trn1 实例帮助我们将训练成本降低了 20%。利用 Trainium,我们成功开发出了一款 LLM,能够以前所未有的准确性和速度为专业人士解答关键业务问题。鉴于各公司在确保模型开发所需的充足计算资源方面普遍面临挑战,这一成就尤其值得一提。在见识过 Trn1 实例的惊人速度和成本降低后,我们很期待看到 Trainium2 将为我们的工作流程和客户带来的更多益处。

    Stockmark Inc. 首席技术官兼联合创始人 Kosuke Arima
  • Brave

    Brave 是一款独立的浏览器和搜索引擎,致力于将用户隐私和安全置于优先地位。我们拥有 7000 多万用户,提供行业领先的保护措施,让 Web 更安全、更方便用户使用。与其他放弃以用户为中心的平台不同,Brave 始终致力于将隐私、安全和便利性放在首位。主要功能包括拦截有害脚本和跟踪器、由 LLM 提供支持的人工智能辅助页面摘要、内置 VPN 服务等。我们不断努力提高搜索服务和人工智能模型的速度和成本效益。为了支持这一点,我们很高兴能够利用包括 Trainium2 在内的 AWS AI 芯片的最新功能以改善用户体验,因为我们可以扩展到每月处理数十亿个搜索查询。

    Brave Software 工程副总裁 Subu Sathyanarayana
  • Anyscale

    Anyscale 是研发 Ray 的公司,Ray 是一款人工智能计算引擎,可为企业的机器学习和生成式人工智能计划提供动力。借助由 RayTurbo 驱动的 Anyscale 统一人工智能平台,通过优化资源利用率,客户可将数据处理速度提高多达 4.5 倍,使用 LLM 进行批量推理的成本降低 10 倍,扩展速度加快 5 倍,迭代速度加快 12 倍,在线模型推理可节省 50% 的成本。

    Anyscale 致力于为企业提供最佳工具,使其能够高效、低成本地扩展人工智能工作负载。我们的 RayTurbo 运行时原生支持 AWS Trainium 和 Inferentia 芯片,因此我们的客户可以获得高性能、低成本的模型训练和服务选择。现在,我们很高兴能与 AWS 合作开发 Trainium2,为我们的客户带来快速创新的新机遇,并大规模提供高性能的变革性人工智能体验。

    Anyscale 联合创始人 Robert Nishihara
  • Datadog

    Datadog 是云应用程序的可观测性和安全平台,为客户提供 AWS Trainium 和 Inferentia 监控,以优化模型性能、提高效率和降低成本。Datadog 的集成提供对机器学习操作和底层芯片性能的全面可见性,从而能够主动解决问题和无缝扩展基础设施。我们很高兴能扩展与 AWS 的合作关系,推出 AWS Trainium2,帮助用户削减高达 50% 的人工智能基础设施成本,并提高模型训练和部署性能。

    Datadog 公司产品副总裁 Yrieix Garnier
  • Hugging Face

    Hugging Face 是面向人工智能构建者的领先开放平台,在 500 多万研究人员、数据科学家、机器学习工程师和软件开发人员组成的社区中共享 200 多万个模型、数据集和人工智能应用程序。在过去几年中,我们一直与 AWS 合作,通过 Optimum Neuron 开源库让开发人员更轻松地体验 AWS Inferentia 和 Trainium 在性能和成本效益方面的优势,这些开源库集成在 Hugging Face 推理端点中,现在又在我们新的 HUGS 自部署服务中进行了优化,可在 AWS Marketplace 上使用。随着 Trainium2 的推出,我们的用户将获得更高的性能,从而更快地开发和部署模型。

    Hugging Face 产品主管 Jeff Boudier
  • Lightning AI

    作为 PyTorch Lightning 和 Lightning Studios 的创建者,Lightning AI 为企业级人工智能提供最直观的一体化人工智能开发平台。Lightning 提供全代码、低代码和无代码工具,用于快速构建代理、人工智能应用程序和生成式人工智能解决方案,犹如闪电一般。该平台设计灵活,可利用超过 300 万开发人员社区的专业知识和支持,在您的云端或我们的云端无缝运行。

    Lightning 现在原生支持 AWS 人工智能芯片、Trainium 和 Inferentia,这些都集成在 Lightning Studios 以及 PyTorch Lightning、Fabric 和 LitServe 等开源工具中。这让用户能够无缝进行大规模预训练、微调和部署,以零切换开销优化成本、可用性和性能,并提高 AWS AI 芯片(包括最新一代 Trainium2 芯片)的性能和成本优势,从而以更低的成本提供更高的性能。

    Lightning AI 首席技术官 Luca Antiga
  • Domino Data Lab

    借助 Domino 的统一人工智能平台,企业数据科学团队能够大规模构建和运营人工智能。领先企业能够在技术复杂性、成本和治理之间取得平衡,掌握广泛的人工智能创新选择。通过 AWS Trainium 和 Inferentia,我们为客户提供不折不扣的高性能和高效率。随着 AWS Trainium2 的推出,我们的客户能够以更高的性能和更低的成本训练和部署模型。Domino 对 AWS Trainium2 的支持为我们的客户提供了更多的选择,使他们能够以更低的成本和更节省资源的方式训练和部署模型。

    Domino 数据实验室首席执行官兼联合创始人 Nick Elprin

入门

SageMaker 即将推出对 Trn2 实例的支持。Amazon SageMaker HyperPod 提供弹性计算集群、优化的训练性能以及底层计算、联网和内存资源的高效利用,因此您可以通过使用 Amazon SageMaker HyperPod 在 Trn2 实例上轻松训练模型。您还可以使用 SageMaker 在 Trn2 实例上扩展模型部署,以便在生产中更有效地管理模型,减轻运营负担。

AWS Deep Learning AMI(DLAMI)可以为深度学习(DL)从业人员和研究人员提供基础设施和各种工具,从而加快在 AWS 上进行任意规模的深度学习的速度。AWS Neuron 驱动程序已在 DLAMI 中预先配置,可在 Trn2 实例上以最佳方式训练您的深度学习模型。

Deep Learning Containers 即将推出对 Trn2 实例的支持。使用这些容器,您现在可以在完全托管的 Kubernetes 服务 Amazon Elastic Kubernetes Service(Amazon EKS)和完全托管的容器编排服务 Amazon Elastic Container Service(Amazon ECS)中部署 Trn2 实例。AWS Deep Learning Containers 中还预装了 Neuron。要了解有关在 Trn2 实例上运行容器的更多信息,请参阅 Neuron 容器教程

产品详细信息

实例大小 在 EC2 UltraServer 中可用 Trainium2 芯片 加速器
内存

vCPU 内存
(TB)
实例存储(TB) 网络带宽(Tbps) EBS 带宽(Gbps)
trn2.48xlarge 16 1.5 TB 192 2 TB 4 x 1.92 NVMe SSD 3.2 80
trn2u.48xlarge (预览版) 16 1.5 TB 192 2 TB 4 x 1.92 NVMe SSD 3.2 80