Amazon EC2 P5 实例

适用于深度学习和 HPC 应用程序的基于 GPU 的最高性能实例

开始使用 P5 实例

为什么选择 Amazon EC2 P5 实例？

Amazon Elastic Compute Cloud（Amazon EC2）P5 实例由 NVIDIA H100 Tensor Core GPU 提供技术支持，P5e 和 P5en 实例由 NVIDIA H200 Tensor Core GPU 提供技术支持，可在 Amazon EC2 中为深度学习（DL）和高性能计算（HPC）应用程序提供最高性能。与上一代基于 GPU 的 EC2 实例相比，这些实例可帮助您将问题解决时间缩短多达 4 倍，并将训练机器学习模型的成本降低高达 40%。这些实例可帮助您更快地迭代解决方案，加快上市速度。您可以使用 P5、P5e 和 P5en 实例来训练和部署日益复杂的大型语言模型（LLM）和扩散模型，为要求最苛刻的生成式人工智能（AI）应用程序提供支持。这些应用程序包括问题解答、代码生成、视频和图像生成、语音识别。您还可以使用这些实例在药物发现、地震分析、天气预报和财务建模领域大规模部署要求苛刻的 HPC 应用程序。

为了实现这些性能改进和成本节约，与上一代基于 GPU 的实例相比，P5 和 P5e 实例搭配 NVIDIA H100 和 H200 Tensor Core GPU，CPU 性能提高了 2 倍，系统内存提高了 2 倍，本地存储空间增加了 4 倍。P5en 实例将 NVIDIA H200 Tensor Core GPU 与高性能 Intel Sapphire Rapids CPU 配对，在 CPU 和 GPU 之间启用 Gen5 PCIe。与 P5e 和 P5 实例相比，P5en 实例提供的 CPU 和 GPU 之间的带宽高达 4 倍，网络延迟更低，从而提高了分布式训练性能。P5 和 P5e 实例支持使用第二代 Elastic Fabric Adapter（EFA）提供高达 3,200 Gbps 的网络连接。与使用上一代 EFA 和 Nitro 的 P5 相比，P5en 采用 Nitro v5 和第三代 EFA，在延迟方面改善了 35％。这有助于提高分布式训练工作负载的集体通信性能，如深度学习、生成式人工智能、实时数据处理和高性能计算（HPC）应用程序。为了以低延迟提供大规模计算，Amazon EC2 UltraClusters 中部署了这些实例，可以纵向扩展到 20,000 个与 PB 级非阻塞网络互连的 H100 或 H200 GPU。EC2 UltraClusters 中的 P5、P5e 和 P5en 实例可提供高达每秒 20 百万兆级的聚合计算能力，性能相当于一台超级计算机。

Amazon EC2 P5 实例

优势

大规模训练 100B+ 参数模型

P5、P5e 和 P5en 实例可以大规模训练超大型生成式人工智能模型，并提供比上一代基于 GPU 的 EC2 实例高出 4 倍的性能。

缩短制定解决方案的时间，加快迭代速度

P5、P5e 和 P5en 实例将训练时间和制定解决方案的时间从几周缩短到短短几天。这可以帮助您以更快的速度进行迭代，加快上市速度。

降低您的 DL 和 HPC 基础设施成本

与上一代基于 GPU 的 EC2 实例相比，P5、P5e 和 P5en 实例在 DL 训练和 HPC 基础设施成本上最高可节省 40%。

以百万兆级计算运行分布式训练和 HPC

P5、P5e 和 P5en 实例提供高达 3200 Gbps 的 EFA 网络连接。这些实例部署在 EC2 UltraClusters 中，提供每秒 20 百万兆级的聚合计算能力。

功能

NVIDIA H100 和 H200 Tensor Core GPU

P5 实例提供多达 8 个 NVIDIA H100 GPU，每个实例总共提供高达 640GB 的 HBM3 GPU 内存。P5e 和 P5en 实例提供多达 8 个 NVIDIA H200 GPU，每个实例总共提供高达 1128 GB 的 HBM3e GPU 内存。两种实例均支持高达 900 GB/s 的 NVSwitch GPU 互连（每个实例中总共为 3.6TB/s 的二分段带宽），因此每个 GPU 可以在单跳延迟的情况下与同一个实例中的每个 GPU 通信。

新的转换器引擎和 DPX 指令

NVIDIA H100 和 H200 GPU 采用了新的转换器引擎，可以智能方式管理并以动态方式选择 FP8 和 16 位计算。与上一代 A100 GPU 相比，此功能有助于在 LLM 上提供更快的 DL 训练加速。对于 HPC 工作负载，与 A100 GPU 相比，NVIDIA H100 和 H200 GPU 具有新的 DPX 指令，可以进一步加速动态编程算法。

高性能网络

P5、P5e 和 P5en 实例可提供高达 3200 Gbps 的 EFA 网络连接。EFA 还结合了 NVIDIA GPUDirect RDMA，可在服务器与操作系统旁路之间实现低延迟 GPU 至 GPU 通信。

高性能存储

P5、P5e 和 P5en 实例支持适用于 Lustre 的 Amazon FSx 文件系统，因此您能够以大规模 DL 和 HPC 工作负载所需的数百 GB/s 吞吐量和数百万 IOPS 访问数据。每个实例还支持高达 30TB 的本地 NVMe SSD 存储，从而对大型数据集进行快速访问。您还可以通过 Amazon Simple Storage Service（Amazon S3）使用几乎无限且经济实惠的存储。

客户评价

以下是客户和合作伙伴如何利用 Amazon EC2 P4 实例实现业务目标的一些示例。

Anthropic

Anthropic 构建了可靠、可解释和可操纵的 AI 系统，这些系统将有许多机会创造商业价值并让公众受益。

在 Anthropic，我们正在努力构建可靠、可解释和可操纵的 AI 系统。虽然当今的大型通用人工智能系统可以带来巨大的好处，但它们也是不可预测的、不可靠的和不透明的。我们的目标是解决这些问题，并部署人们认为有用的系统。我们组织是世界上为数不多的在 DL 研究领域建立基础模型的组织之一。这些模型非常复杂，为了开发和训练这些先进模型，我们需要将它们高效地分布在大型 GPU 集群中。目前，我们正在广泛使用 Amazon EC2 P4 实例，我们对 P5 实例的推出感到振奋。我们期望，与 P4d 实例相比，它们能够提供可观的性价比优势，并且能达到构建下一代 LLM 和相关产品所需的大规模的需要。

Tom Brown，Anthropic 联合创始人
Cohere

Cohere 是语言人工智能领域的领先先驱，它使每位开发人员和每个企业都能使用世界领先的自然语言处理（NLP）技术构建令人惊叹的产品，同时保持数据的私密性和安全性

Cohere 在帮助所有企业利用语言人工智能的力量以自然和直观的方式探索、生成、搜索和处理信息方面处于领先地位，并在最适合每个客户的数据环境中跨多个云平台引领部署。搭载 NVIDIA H100 的 Amazon EC2 P5 实例将利用其计算能力与 Cohere 最先进的 LLM 和生成式人工智能能力相结合，挖掘企业更快地创建、发展和扩展的能力。

Aidan Gomez，Cohere 首席执行官
Hugging Face

Hugging Face 的使命是让出色的 ML 大众化。

作为 ML 领域发展最快的开源社区，我们现在在我们的平台上为 NLP、计算机视觉、生物学、强化学习等提供了超过 150000 个预训练模型和 25000 个数据集。借助 LLM 和生成式人工智能的重大进步，我们正在与 AWS 合作，为构建面向未来的开源模型做出贡献。我们期待通过 Amazon SageMaker 在带有 EFA 的 UltraClusters 中大规模使用 Amazon EC2 P5 实例，以加快交付适合所有人的新基础人工智能模型。

Julien Chaumond，Hugging Face 首席技术官兼联合创始人

产品详细信息

实例大小	vCPU	实例内存（TiB）	GPU	GPU 内存	网络带宽（Gbps）	GPUDirect RDMA	GPU 对等	实例存储（TB）	EBS 带宽（Gbps）
p5.48xlarge	192	2	8 H100	640 GB HBM3	3200 Gbps EFA	是	900 GB/s NVSwitch	8 个 3.84 NVMe SSD	80
p5e.48xlarge	192	2	8 H200	1128GB HBM3e	3200 Gbps EFA	是	900 GB/s NVSwitch	8 个 3.84 NVMe SSD	80
p5en.48xlarge	192	2	8 H200	1128 GB HBM3e	3200 Gbps EFA	是	900 GB/s NVSwitch	8 个 3.84 NVMe SSD	100

机器学习应用场景入门

使用 SageMaker

SageMaker 是一项完全托管的服务，用于构建、训练和部署 ML 模型。借助 SageMaker HyperPod，您就可以更轻松地扩展至数十、数百或数千个 GPU，从而以任何规模快速训练模型，而无需担心设置和管理弹性训练集群的问题。

使用 DLAMI 或 Deep Learning Containers

DLAMI 可以为机器学习从业人员和研究人员提供基础设施和各种工具，从而加快在云中进行任意规模的深度学习的速度。 Deep Learning Containers 是预先安装了深度学习框架的 Docker 映像，可以让您跳过从头构建和优化环境的复杂流程，从而简化自定义 ML 环境的部署。

使用 Amazon EKS 或 Amazon ECS

如果您更愿意通过容器编排服务管理自己的容器化工作负载，则可以使用 Amazon EKS 或 Amazon ECS 部署 P5、P5e 和 P5en 实例。

HPC 应用场景入门

P5、P5e 和 P5en 实例是一个非常适合运行工程模拟、计算金融、地震分析、分子建模、基因组学、渲染和其他基于 GPU 的 HPC 工作负载的平台。HPC 应用程序通常需要高网络性能、快速存储、大量内存、超高计算能力或上述所有条件。所有三种实例类型都支持 EFA，使使用消息传递接口（MPI）的 HPC 应用程序能够扩展到数千个 GPU。AWS Batch 和 AWS ParallelCluster 可帮助 HPC 开发人员快速地构建和扩展分布式 HPC 应用程序。

了解更多

开始使用 AWS

步骤 1：注册 AWS 账户

立即享受 AWS 免费套餐。

了解更多

步骤 2：通过 10 分钟教程来进行学习

通过简单教程来进行探讨和学习。

了解更多

步骤 3：开始使用 AWS 进行构建

借助分步指南开始构建，帮助您启动 AWS 项目。

了解更多

选择您的 Cookie 首选项

Amazon EC2 P5 实例

适用于深度学习和 HPC 应用程序的基于 GPU 的最高性能实例

为什么选择 Amazon EC2 P5 实例？

Amazon EC2 P5 实例

优势

大规模训练 100B+ 参数模型

缩短制定解决方案的时间，加快迭代速度

降低您的 DL 和 HPC 基础设施成本

以百万兆级计算运行分布式训练和 HPC

功能

NVIDIA H100 和 H200 Tensor Core GPU

新的转换器引擎和 DPX 指令

高性能网络

高性能存储

客户评价

Anthropic

Cohere

Hugging Face

产品详细信息

机器学习应用场景入门

使用 SageMaker

使用 DLAMI 或 Deep Learning Containers

使用 Amazon EKS 或 Amazon ECS

HPC 应用场景入门

开始使用 AWS

步骤 1：注册 AWS 账户

步骤 2：通过 10 分钟教程来进行学习

步骤 3：开始使用 AWS 进行构建

终止对 Internet Explorer 的支持