适用于 Lustre 的 Amazon FSx 现在支持 Elastic Fabric Adapter 和 NVIDIA GPUDirect Storage

发布于: 2024年11月27日

适用于 Lustre 的 Amazon FSx 是一项为计算工作负载提供高性能、经济高效和可扩展文件存储的服务,现在支持 Elastic Fabric Adapter (EFA) 和 NVIDIA GPUDirect Storage (GDS)。通过此次发布,适用于 Lustre 的 Amazon FSx 现在可为云中的 GPU 实例提供最快的存储性能,与之前的适用于 Lustre 的 FSx 系统相比,每个客户端实例的吞吐量提高了多达 12 倍 (1200Gbps),这使您可以更快地完成机器学习训练作业,同时减少工作负载成本。

EFA 通过使用 AWS 可扩展的可靠数据报 (SRD) 协议提高网络吞吐量利用率,并在数据传输过程中绕过操作系统,提升了工作负载性能。对于由 Trn1 和 Hpc7a 等高性能计算实例提供支持的应用程序,您可以使用 EFA 来提高每个客户端实例的吞吐量。GDS 支持以 EFA 为基础,通过实现文件系统和 GPU 内存之间的直接数据传输来进一步提高性能。这种直接路径无需内存副本,也无需 CPU 介入数据传输操作。结合了 EFA 和 GDS 支持,使用 P5 GPU 实例和 NVIDIA 计算统一设备架构 (CUDA) 的应用程序可以将每个客户端实例的吞吐量提高多达 12 倍(高达 1200Gbps)。

EFA 和 GDS 支持在提供 Persistent-2 文件系统的所有 AWS 商业区域中的新的适用于 Lustre 的 FSx Persistent-2 文件系统上推出,无需额外付费即可使用。有关这项新功能的更多信息,请参阅适用于 Lustre 的 Amazon FSx 文档和 AWS 新闻博客适用于 Lustre 的 Amazon FSx 可将 GPU 实例的吞吐量提高多达 12 倍