发布于: Nov 2, 2020
我们兴奋地宣布推出基于 GPU 的下一代实例 Amazon EC2 P4d 实例,该实例为云中的机器学习 (ML) 训练和高性能计算 (HPC) 提供最佳性能,以用于自然语言处理、对象检测和分类、地震数据分析和基因组学研究等应用。P4d 实例由最新的 NVIDIA A100 Tensor 核心 GPU 提供支持,首先在云 400 Gbps 实例联网中提供,支持 Elastic Fabric Adapter (EFA) 和 NVIDIA GPUDirect RDMA(远程直接内存访问),以便能够高效扩展多节点 ML 训练和 HPC 工作负载。
P4d 实例与上一代 P3 实例相比,最高能降低 60% 的成本,将深度学习性能提高 2.5 倍以上,并将内存增加 2.5 倍,双精度浮点运算处理能力提高两倍,网络带宽提高 16 倍,以及基于 NVMe 的本地 SSD 存储提高 4 倍。
P4d 实例部署在称为 EC2 UltraClusters 的超大规模集群中,从而提供 4000 多个 NVIDIA A100 GPU、PB 级非阻塞联网基础设施、以及通过 FSx for Lustre 实现的高吞吐能力、低延迟存储。这些 EC2 UltraClusters 在世界顶级的超级计算机之列,支持日常开发人员、数据科学家和研究人员对超级计算进行普遍访问,无需任何设置或维护成本。使用这些 EC2 UltraClusters,开发人员可以将其多节点 ML 训练或 HPC 应用程序扩展到数千个 GPU 来解决最复杂的问题,或者缩减到几个实例,仅为其使用的实例付费。
Amazon EC2 P4d 实例构建于 AWS Nitro 系统之上,后者集 AWS 设计的硬件和软件创新于一体,可通过隔离多租户、专用网络和快速本地存储交付高效、灵活且安全的云服务。
P4d 实例现已在 AWS 美国东部(弗吉尼亚北部)和美国西部(俄勒冈)区域推出。它们有 p4d.24xl 大小可供使用,从而提供 96 个 vCPU、8 个 NVIDIA A100 GPU、1.1 TB 实例内存、8 TB 基于 NVMe 的本地 SSD 存储、400 Gbps 的 EFA 和 GPUDirect RDMA 网络带宽,以及 19 Gbps 的 EBS 突增带宽。P4d 实例可作为 Savings Plans、预留实例或 Spot 实例的一部分按需购买。
适用于 ML 和编排的常见 AWS 服务(例如 Amazon SageMaker、Amazon Elastic Kubernetes Service (EKS)、Amazon Elastic Container Service (ECS)、AWS ParallelCluster 和 AWS Batch)将在未来几周增加对 P4d 实例的支持。来自财富 500 公司到初创公司(包括 Toyota Research Institute、GE Healthcare 和 Aon PathWise)的很多客户已参加预览计划,并且正在采用 P4d 实例缩短训练时间,降低训练其 ML 模型的成本。要开始使用 Amazon EC2 P4d 实例,请访问 AWS 管理控制台、AWS 命令行界面 (CLI) 和 AWS 开发工具包。要了解更多信息,请访问产品概览页面或产品详细信息页面。