为什么选择 Amazon EC2 P5 实例?
Amazon Elastic Compute Cloud(Amazon EC2)P5 实例由 NVIDIA H100 Tensor Core GPU 提供技术支持,P5e 和 P5en 实例由 NVIDIA H200 Tensor Core GPU 提供技术支持,可在 Amazon EC2 中为深度学习(DL)和高性能计算(HPC)应用程序提供最高性能。与上一代基于 GPU 的 EC2 实例相比,这些实例可帮助您将问题解决时间缩短多达 4 倍,并将训练机器学习模型的成本降低高达 40%。这些实例可帮助您更快地迭代解决方案,加快上市速度。您可以使用 P5、P5e 和 P5en 实例来训练和部署日益复杂的大型语言模型(LLM)和扩散模型,为要求最苛刻的生成式人工智能(AI)应用程序提供支持。这些应用程序包括问题解答、代码生成、视频和图像生成、语音识别。您还可以使用这些实例在药物发现、地震分析、天气预报和财务建模领域大规模部署要求苛刻的 HPC 应用程序。
为了实现这些性能改进和成本节约,与上一代基于 GPU 的实例相比,P5 和 P5e 实例搭配 NVIDIA H100 和 H200 Tensor Core GPU,CPU 性能提高了 2 倍,系统内存提高了 2 倍,本地存储空间增加了 4 倍。P5en 实例将 NVIDIA H200 Tensor Core GPU 与高性能 Intel Sapphire Rapids CPU 配对,在 CPU 和 GPU 之间启用 Gen5 PCIe。与 P5e 和 P5 实例相比,P5en 实例提供的 CPU 和 GPU 之间的带宽高达 4 倍,网络延迟更低,从而提高了分布式训练性能。P5 和 P5e 实例支持使用第二代 Elastic Fabric Adapter(EFA)提供高达 3,200 Gbps 的网络连接。与使用上一代 EFA 和 Nitro 的 P5 相比,P5en 采用 Nitro v5 和第三代 EFA,在延迟方面改善了 35%。这有助于提高分布式训练工作负载的集体通信性能,如深度学习、生成式人工智能、实时数据处理和高性能计算(HPC)应用程序。为了以低延迟提供大规模计算,Amazon EC2 UltraClusters 中部署了这些实例,可以纵向扩展到 20,000 个与 PB 级非阻塞网络互连的 H100 或 H200 GPU。EC2 UltraClusters 中的 P5、P5e 和 P5en 实例可提供高达每秒 20 百万兆级的聚合计算能力,性能相当于一台超级计算机。
Amazon EC2 P5 实例
优势
功能
客户评价
以下是客户和合作伙伴如何利用 Amazon EC2 P4 实例实现业务目标的一些示例。
-
Anthropic
Anthropic 构建了可靠、可解释和可操纵的 AI 系统,这些系统将有许多机会创造商业价值并让公众受益。
在 Anthropic,我们正在努力构建可靠、可解释和可操纵的 AI 系统。虽然当今的大型通用人工智能系统可以带来巨大的好处,但它们也是不可预测的、不可靠的和不透明的。我们的目标是解决这些问题,并部署人们认为有用的系统。我们组织是世界上为数不多的在 DL 研究领域建立基础模型的组织之一。这些模型非常复杂,为了开发和训练这些先进模型,我们需要将它们高效地分布在大型 GPU 集群中。目前,我们正在广泛使用 Amazon EC2 P4 实例,我们对 P5 实例的推出感到振奋。我们期望,与 P4d 实例相比,它们能够提供可观的性价比优势,并且能达到构建下一代 LLM 和相关产品所需的大规模的需要。
Tom Brown,Anthropic 联合创始人 -
Cohere
Cohere 是语言人工智能领域的领先先驱,它使每位开发人员和每个企业都能使用世界领先的自然语言处理(NLP)技术构建令人惊叹的产品,同时保持数据的私密性和安全性
Cohere 在帮助所有企业利用语言人工智能的力量以自然和直观的方式探索、生成、搜索和处理信息方面处于领先地位,并在最适合每个客户的数据环境中跨多个云平台引领部署。搭载 NVIDIA H100 的 Amazon EC2 P5 实例将利用其计算能力与 Cohere 最先进的 LLM 和生成式人工智能能力相结合,挖掘企业更快地创建、发展和扩展的能力。
Aidan Gomez,Cohere 首席执行官 -
Hugging Face
Hugging Face 的使命是让出色的 ML 大众化。
作为 ML 领域发展最快的开源社区,我们现在在我们的平台上为 NLP、计算机视觉、生物学、强化学习等提供了超过 150000 个预训练模型和 25000 个数据集。借助 LLM 和生成式人工智能的重大进步,我们正在与 AWS 合作,为构建面向未来的开源模型做出贡献。我们期待通过 Amazon SageMaker 在带有 EFA 的 UltraClusters 中大规模使用 Amazon EC2 P5 实例,以加快交付适合所有人的新基础人工智能模型。
Julien Chaumond,Hugging Face 首席技术官兼联合创始人
产品详细信息
实例大小 | vCPU | 实例内存(TiB) | GPU | GPU 内存 | 网络带宽(Gbps) | GPUDirect RDMA | GPU 对等 | 实例存储(TB) | EBS 带宽(Gbps) |
---|---|---|---|---|---|---|---|---|---|
p5.48xlarge | 192 | 2 | 8 H100 | 640 GB HBM3 |
3200 Gbps EFA | 是 | 900 GB/s NVSwitch | 8 个 3.84 NVMe SSD | 80 |
p5e.48xlarge | 192 | 2 | 8 H200 | 1128GB HBM3e |
3200 Gbps EFA | 是 | 900 GB/s NVSwitch | 8 个 3.84 NVMe SSD | 80 |
p5en.48xlarge | 192 | 2 | 8 H200 | 1128 GB HBM3e | 3200 Gbps EFA | 是 | 900 GB/s NVSwitch | 8 个 3.84 NVMe SSD | 100 |
机器学习应用场景入门
HPC 应用场景入门
P5、P5e 和 P5en 实例是一个非常适合运行工程模拟、计算金融、地震分析、分子建模、基因组学、渲染和其他基于 GPU 的 HPC 工作负载的平台。HPC 应用程序通常需要高网络性能、快速存储、大量内存、超高计算能力或上述所有条件。所有三种实例类型都支持 EFA,使使用消息传递接口(MPI)的 HPC 应用程序能够扩展到数千个 GPU。AWS Batch 和 AWS ParallelCluster 可帮助 HPC 开发人员快速地构建和扩展分布式 HPC 应用程序。
了解更多