宣布在 EC2 UltraClusters 中部署新的 Amazon EC2 P4d 实例，以在云中提供最高性能的 ML 训练和 HPC 应用程序

发布于: Nov 2, 2020

我们兴奋地宣布推出基于 GPU 的下一代实例 Amazon EC2 P4d 实例，该实例为云中的机器学习 (ML) 训练和高性能计算 (HPC) 提供最佳性能，以用于自然语言处理、对象检测和分类、地震数据分析和基因组学研究等应用。P4d 实例由最新的 NVIDIA A100 Tensor 核心 GPU 提供支持，首先在云 400 Gbps 实例联网中提供，支持 Elastic Fabric Adapter (EFA) 和 NVIDIA GPUDirect RDMA（远程直接内存访问），以便能够高效扩展多节点 ML 训练和 HPC 工作负载。

P4d 实例与上一代 P3 实例相比，最高能降低 60% 的成本，将深度学习性能提高 2.5 倍以上，并将内存增加 2.5 倍，双精度浮点运算处理能力提高两倍，网络带宽提高 16 倍，以及基于 NVMe 的本地 SSD 存储提高 4 倍。

P4d 实例部署在称为 EC2 UltraClusters 的超大规模集群中，从而提供 4000 多个 NVIDIA A100 GPU、PB 级非阻塞联网基础设施、以及通过 FSx for Lustre 实现的高吞吐能力、低延迟存储。这些 EC2 UltraClusters 在世界顶级的超级计算机之列，支持日常开发人员、数据科学家和研究人员对超级计算进行普遍访问，无需任何设置或维护成本。使用这些 EC2 UltraClusters，开发人员可以将其多节点 ML 训练或 HPC 应用程序扩展到数千个 GPU 来解决最复杂的问题，或者缩减到几个实例，仅为其使用的实例付费。

Announcing Amazon EC2 P4d Instances

Amazon EC2 P4d 实例构建于 AWS Nitro 系统之上，后者集 AWS 设计的硬件和软件创新于一体，可通过隔离多租户、专用网络和快速本地存储交付高效、灵活且安全的云服务。

P4d 实例现已在 AWS 美国东部（弗吉尼亚北部）和美国西部（俄勒冈）区域推出。它们有 p4d.24xl 大小可供使用，从而提供 96 个 vCPU、8 个 NVIDIA A100 GPU、1.1 TB 实例内存、8 TB 基于 NVMe 的本地 SSD 存储、400 Gbps 的 EFA 和 GPUDirect RDMA 网络带宽，以及 19 Gbps 的 EBS 突增带宽。P4d 实例可作为 Savings Plans、预留实例或 Spot 实例的一部分按需购买。

适用于 ML 和编排的常见 AWS 服务（例如 Amazon SageMaker、Amazon Elastic Kubernetes Service (EKS)、Amazon Elastic Container Service (ECS)、AWS ParallelCluster 和 AWS Batch）将在未来几周增加对 P4d 实例的支持。来自财富 500 公司到初创公司（包括 Toyota Research Institute、GE Healthcare 和 Aon PathWise）的很多客户已参加预览计划，并且正在采用 P4d 实例缩短训练时间，降低训练其 ML 模型的成本。要开始使用 Amazon EC2 P4d 实例，请访问 AWS 管理控制台、AWS 命令行界面 (CLI) 和 AWS 开发工具包。要了解更多信息，请访问产品概览页面或产品详细信息页面。

宣布在 EC2 UltraClusters 中部署新的 Amazon EC2 P4d 实例，以在云中提供最高性能的 ML 训练和 HPC 应用程序

Announcing Amazon EC2 P4d Instances

终止对 Internet Explorer 的支持