为什么选择 Amazon EC2 UltraServers?
Amazon Elastic Compute Cloud(Amazon EC2)UltraServers 非常适合寻求为万亿参数规模的模型提供最高的人工智能训练和推理性能的客户。UltraServers 使用专用的高带宽、低延迟加速器互连,以连接多个 EC2 实例,让您能够在 EC2 实例间利用紧密耦合的加速器网格,并访问比独立 EC2 实例更多的计算和内存。
EC2 UltraServers 非常适合需要比独立 EC2 实例更多的内存和更多的内存带宽的大型模型。UltraServer 设计使用实例内加速器连接,将多个实例连接到一个节点,从而解锁新功能。在推理方面,UltraServers 有助于提供业界领先的响应时间,打造最佳的实时体验。在训练方面,UltraServers 以比独立实例更快的速度并行运行模型集体通信,从而提高模型训练速度和效率。EC2 UltraServers 支持 EFA 网络连接,在 EC2 UltraClusters 中部署时,可在单个 PB 级无阻塞网络上通过数以万计的加速器实现横向扩展分布式培训。通过为训练和推理提供更高的性能,UltraServers 可加快您的上市时间,并帮助您交付由性能最强的下一代基础模型驱动的实时应用程序。
优势
功能
支持的实例
Trn2 实例
Trn2 实例由 AWS Trainium2 芯片提供支持,采用 Trn2 UltraServer 配置(预览版已上线),让您能够扩展至多达 64 个 Trainium2 芯片,这些芯片与 AWS AI 芯片专用的高带宽、低延迟互连 NeuronLink 连接。Trn2 UltraServers 在 Amazon EC2 中为生成式人工智能训练和推理提供突破性的性能。