Amazon EC2 P4 实例

云端机器学习训练和 HPC 应用程序的高性能

为什么选择 Amazon EC2 P4 实例?

Amazon Elastic Compute Cloud(Amazon EC2)P4d 实例为云端机器学习(ML)训练和高性能计算(HPC)应用提供了高性能。P4d 实例由 NVIDIA A100 Tensor Core GPU 提供支持,并提供业界领先的高吞吐量和低延迟网络。这些实例支持 400 Gbps 的实例联网。P4d 实例在训练 ML 模型时可产生多达 60% 的成本节约,包括与上一代的 P3 和 P3dn 实例相比深度学习模型的性能平均提高 2.5 倍。

P4d 实例部署在名为 Amazon EC2 UltraCluster 的超大规模集群中,后者包含云中高性能的计算、网络和存储。每个 EC2 UltraCluster 都是世界上最强大的超级计算机之一,可帮助您运行其最复杂的多节点 ML 训练和分布式 HPC 工作负载。您可以根据 ML 或 HPC 项目的需求,在 EC2 UltraCluster 中轻松地从几个扩展到数千个 NVIDIA A100 GPU。

研究人员、数据科学家和开发人员可以使用 P4d 实例针对自然语言处理、对象检测和分类以及建议引擎等各种使用案例训练 ML 模型。他们还可以使用该实例来运行药物发现、地震分析和财务建模之类的 HPC 应用程序。与本地系统不同,您可以虚拟访问不受限制的计算和存储容量、根据业务需要扩展基础设施,并在几分钟内加速多节点 ML 训练工作或紧密耦合的分布式 HPC 应用程序,而不会产生任何设置或维护成本。

宣布推出新的 Amazon EC2 P4d 实例

优势

使用最新一代 NVIDIA A100 Tensor Core GPU 后,每个 P4d 实例与上一代 P3 实例相比深度学习性能平均提高 2.5 倍。在日常工作中,P4d 实例的 EC2 UltraCluster 可帮助开发人员、数据科学家和研究人员运行其最复杂的 ML 和 HPC 工作负载,无需任何预付费用或长期合约即可获得超算级性能。使用 P4d 实例减少的训练时间能够提高生产效率,帮助开发人员专注于将 ML 智能融入业务应用程序的核心使命。

开发人员可以利用 P4d 实例的 EC2 UltraCluster 无缝地扩大到数千个 GPU 的规模。支持 400 Gbps 实例联网、Elastic Fabric Adapter(EFA)和 GPUDirect RDMA 技术的高吞吐量、低延迟联网,有助于使用扩展/分布式技术快速地训练 ML 模型。EFA 可使用 NVIDIA Collective Communications Library(NCCL)扩展到数千个 GPU,而 GPUDirect RDMA 技术能够在 P4d 实例之间实现低延迟 GPU 至 GPU 通信。

P4d 实例训练 ML 模型的成本与 P3 实例相比降低多达 60%。此外,P4d 实例还可作为竞价型实例购买。竞价型实例利用了未使用的 EC2 实例容量,可以大大降低 EC2 的成本,和按需实例价格相比有高达 90% 的折扣。由于使用 P4d 实例的 ML 训练成本更低,因此可以重新分配预算以在业务应用程序中获得更多 ML 智能。

通过 AWS Deep Learning AMI(DLAMI)和 Amazon Deep Learning 可在几分钟内轻松地部署 P4d 深度学习环境,因为它们包含所需的深度学习框架库和工具。您还可以轻松地向这些镜像添加更多自己的库和工具。P4d 实例支持热门 ML 框架,例如 TensorFlow、PyTorch 和 MXNet。此外,用于 ML、管理和编排的多数 AWS 服务(例如,Amazon SageMaker、Amazon Elastic Kubernetes Service(Amazon EKS)、Amazon Elastic Container Service(Amazon ECS)、AWS Batch 和 AWS ParallelCluster)都支持 P4d 实例。

功能

NVIDIA A100 Tensor Core GPU 大规模地为 ML 和 HPC 带来前所未有的加速效果。NVIDIA A100 的第三代 Tensor Core 可加速各种精密工作负载,同时缩短获得洞察和投放市场所需的时间。每个 A100 GPU 的计算性能达到上一代 V100 GPU 的 2.5 倍以上,配有 40GB HBM2(P4d 实例)或 80GB HBM2e(P4de 实例)高性能 GPU 内存。高性能 GPU 内存尤其适合利用由高精度数据组成的大型数据集进行训练的工作负载。NVIDIA A100 GPU 使用 NVSwitch GPU 互连吞吐量,因此每个 GPU 可以在相同的 600GB/s 双向吞吐量和单跳延迟的情况下与相同实例中的每个其他 GPU 通信。

P4d 实例提供 400 Gbps 联网性能以帮助客户更好地扩展其分布式工作负载,例如利用高吞吐量联网功能在 P4d 实例之间以及在 P4d 实例与 Amazon Simple Storage Service(Amazon S3)和 FSx for Lustre 之类的存储服务之间更高效地进行多节点训练。EFA 是 AWS 为帮助将 ML 和 HPC 应用程序扩展到数千个 GPU 而设计的自定义网络接口。为了进一步减少延迟,EFA 结合 NVIDIA GPUDirect RDMA 以在服务器与操作系统旁路之间实现低延迟 GPU 至 GPU 通信。

使用 FSx for Lustre 访问 PB 级高吞吐量、低延迟存储,或使用 Amazon S3 以 400 Gbps 的速度访问几乎无限的成本效益型存储。对于需要快速访问大数据集的工作负载,每个 P4d 实例还包括 8TB 基于 NVMe 的 SSD 存储,读取吞吐量达到 16 GB/sec。

P4d 实例依托 AWS Nitro System 构建,后者是丰富的构建块集合,可将许多传统虚拟化功能卸载到专用硬件和软件中,以提供高性能、高可用性和高安全性,同时还可降低虚拟化开销。

客户评价

以下是客户和合作伙伴如何利用 Amazon EC2 P4 实例实现业务目标的一些示例。

  • Toyota Research Institute (TRI)

    Toyota Research Institute(TRI)创建于 2015 年,致力于为丰田开发自动驾驶、机器人和其他人类扩增技术。

    在 TRI,我们致力于建设一个人人都能自由行动的未来。上一代 P3 实例曾帮助我们将训练 ML 模型的时间从几天缩短到几小时,我们希望利用 P4d 实例,在增加了 GPU 内存并采用更高效的浮点格式后,让我们的机器学习团队能够以更快的速度训练更复杂的模型。

    Mike Garrison,TRI 基础设施工程技术主管
  • TRI-AD

    在 TRI-AD,我们致力于打造每个人都能自由移动的未来,重点探索利用自适应驾驶和智能城市减少与车辆相关的伤亡。通过使用 Amazon EC2 P4d 实例,我们在不修改现有代码的条件下,能够将对象识别的训练时间相比上一代 GPU 减少 40%。

    Junya Inada,TRI-AD 自动驾驶(识别)总监
  • TRI-AD

    通过使用 Amazon EC2 P4d 实例,我们能够相比上一代 GPU 实例快速地减少训练成本,因此我们能够减少从事模型训练工作的团队数量。P4d 的联网改进让我们能够高效地扩展到数十个实例,从而更加灵活地在测试车内或模拟环境中快速优化、重新训练和部署模型,以进一步完成测试。

    Jack Yan,TRI-AD 基础设施工程高级总监
  • GE Healthcare

    GE Healthcare 是领先的全球医疗技术和数字解决方案创新者。GE Healthcare 让临床医生能够通过 Edison 智能平台支持的智能设备、数据分析、应用程序和服务更快地做出更加明智的决定。

    在 GE Healthcare,我们为临床医生提供工具以帮助他们聚合数据、对这些数据应用 AI 和分析,并获得能够改善患者疗效、提高效率和消除错误的观点。我们的医学成像设备生成大量的数据,需要我们的数据科学家进行处理。使用以前的 GPU 集群,需要几天时间来训练复杂的 AI 模型,例如渐进式 GAN,来模拟和查看结果。使用新 P4d 实例后,处理时间从几天缩短到了几小时。我们发现各种图像大小的模型训练速度都提高了两到三倍,同时获得了更高的性能,批次大小增加,生产效率提高,并且模型开发周期更短。

    Karley Yoder,GM Healthcare 人工智能副总裁兼总经理
  • HEAVY.AI

    HEAVY.AI 是加速分析领域的开拓者。HEAVY.AI 平台用于商业和政府领域,以从主流分析工具限制之外的数据获得见解。

    在 HEAVY.AI,我们致力于打造数据科学和分析融合的未来,以打破和融合数据孤岛。客户利用可能包括地点和时间的海量数据勾画全图,不仅描述发生了什么事件,还通过空间时间数据的精细可视化获得事件的时间和地点。我们的技术既能看到整片森林,也能放大到每一棵树。使用 Amazon EC2 P4d 实例后,我们的平台部署成本与使用上一代 GPU 实例时相比显著降低,因此我们能够更具成本效益地扩展大型数据集。A100 的联网改进提高了我们扩展到数十亿行数据时的效率,使客户能够更快地得出见解。

    Ray Falcione,HEAVY.AI 美国公共领域副总裁
  • Zenotech Ltd.

    Zenotech Ltd 正在通过交付按需许可模型的 HPC 云结合利用 GPU 获得的极限性能优势重新定义在线工程。

    在 Zenotech,我们正在开发合适的工具,以使设计人员创造更高效且对环境友好的产品。我们涉足多个行业,我们的工具利用大规模的模拟带来更丰富的产品性能洞察。利用 AWS P4d 实例,我们运行模拟的速度比使用上一代 GPU 快了 3.5 倍。这种速度提高显著地缩短了解析时间,使客户的设计能够更快地进入市场,或者完成比以前更逼真的模拟。

    Jamil Appa,Zenotech 总监兼联合创始人
  • Aon

    Aon 是一家领先的全球专业服务机构,提供各种风险、退休和健康解决方案。Aon PathWise 是一种基于 GPU 的可扩展 HPC 风险管理解决方案,保险公司和分保公司、银行以及养老基金可利用它来应对今天的主要挑战,例如对冲政策测试、监管和经济学预测以及预算。 

    在 PathWise Solutions Group LLC,我们的产品让保险公司、分保公司和养老基金能够接触到新一代技术,以更快地解决当今的主要保险挑战,例如机器学习、对冲政策测试、监管和经济学预测,以及新产品开发和定价。通过使用 Amazon EC2 P4d 实例,我们相比于上一代 GPU 实例能够惊人地提高单精度和双精度计算的速度,首次让客户完成新范围的计算和预测。速度很重要,得益于 AWS 提供的新实例,我们能够继续为客户带来有意义的价值和最新的技术。

    Van Beach,Aon Pathwise 战略与技术集团生命解决方案全球负责人
  • Rad AI

    汇集了放射学和 AI 专家的 Rad AI 打造能使放射科医生生产效率最大化的产品,最终扩大医疗服务的范围,并改善患者疗效。 阅读案例研究以了解更多信息

    在 Rad AI,我们的使命是为每个人增加就医机会并提高医疗质量。Rad AI 的关注点是医疗成像工作流,致力于节省放射科医生的时间,减少疲劳,提高准确度。我们使用 AI 来自动化放射学工作流程,并帮助简化放射学报告。借助新的 EC2 P4d 实例,我们可以实现更快的推理,并且与上一代 P3 实例相比训练模型的速度提高 2.4 倍,并且准确度更高。这样能够实现更快、更准确的诊断,并获得我们在美国各地提供的高质量放射学服务。

    Doktor Gurson,Rad AI 联合创始人

产品详细信息

实例大小 vCPU 实例内存 (GiB) GPU – A100 GPU 内存 网络带宽(Gbps) GPUDirect RDMA GPU 对等 实例存储 (GB) EBS 带宽 (Gbps) 按需价格/小时 1 年期预留实例的有效小时* 3 年期预留实例的有效小时*
p4d.24xlarge 96 1152 8 320 GB
HBM2
400 ENA 和 EFA 600 GB/s NVSwitch 8 个 1000 NVMe SSD 19 32.77 USD 19.22 USD 11.57 USD
p4de.24xlarge(预览版) 96 1152 8 640 GB
HBM2e
400 ENA 和 EFA 600 GB/s NVSwitch 8 个 1000 NVMe SSD 19 40.96 USD 24.01 USD 14.46 USD
* – 所示价格适用于美国东部(弗吉尼亚州北部)AWS 区域的 Linux/Unix,价格已四舍五入至最接近的美分。如需了解完整的定价详情,请参阅 Amazon EC2 定价

P4d 实例现已在美国东部(弗吉尼亚州北部和俄亥俄州)、美国西部(俄勒冈州)、亚太地区(首尔和东京)和欧洲地区(法兰克福和爱尔兰)区域推出。P4de 实例已在美国东部(弗吉尼亚州北部)和美国西部(俄勒冈州)区域推出。

客户可以将 P4d 和 P4de 实例作为按需型实例、预留实例、竞价型实例、专属主机或作为实惠配套的一部分购买。

开始使用适用于 ML 的 P4d 实例

Amazon SageMaker 是一项完全托管的服务,用于构建、训练和部署 ML 模型。将其与 P4d 实例配合使用,客户可以轻松扩展至数十、数百或数千个 GPU,从而以任何规模快速训练模型,而无需担心设置集群和数据管道。

DLAMI 可以为机器学习从业人员和研究人员提供基础设施和各种工具,从而加快在云中进行任意规模的深度学习的速度。 Deep Learning Containers 是预先安装了深度学习框架的 Docker 映像,可以让您跳过从头构建和优化环境的复杂流程,从而更轻松地快速部署自定义 ML 环境。

如果您更愿意通过容器编排服务管理自己的容器化工作负载,则可以使用 Amazon EKSAmazon ECS 部署 P4d 实例。

开始使用适用于 HPC 的 P4d 实例

P4d 实例非常适合用于运行工程模拟、计算金融、地震分析、分子建模、基因组学、渲染和其他基于 GPU 的 HPC 工作负载。HPC 应用程序通常需要高网络性能、快速存储、大量内存、超高计算能力或上述所有条件。P4d 实例支持 EFA,使使用消息传递接口(MPI)的 HPC 应用程序能够扩展到数千个 GPU。AWS Batch 和 AWS ParallelCluster 可帮助 HPC 开发人员快速地构建和扩展分布式 HPC 应用程序。

了解详情