AWS 宣布 EFA 更新,以实现 AI/ML 应用程序的可扩展性

发布于: 2024年10月24日

AWS 宣布推出一种新的接口类型,可将 Elastic Fabric Adapter (EFA) 与弹性网络适配器 (ENA) 分离。EFA 提供高带宽、低延迟的网络,这对于扩展 AI/ML 工作负载至关重要。新的接口“仅限 EFA”允许您在辅助接口上创建独立的 EFA 设备。这使您可以扩展计算集群以运行 AI/ML 应用程序,而不会耗尽私有 IPv4 地址空间或遇到与 Linux 相关的 IP 路由挑战。

以前,每个 EFA 接口都与一个 ENA 设备耦合,后者会消耗一个 IP 地址。这可能会给不断增长的 AI/ML 模型训练作业带来扩展限制。当使用具有私有 IP 的多个接口时,Linux 还可能带来路由挑战,例如由于源 IP 不匹配导致的数据包丢失以及主机名映射问题。仅限 EFA 接口可以解决这些难题,因为 EFA 设备未分配 IP 地址,这是因为它使用可扩展可靠数据报 (SRD) 协议,该协议在 MAC 地址上运行。仅限 EFA 的接口只能配置为辅助接口,主接口要么是与 ENA 耦合的 EFA,要么只有 ENA,因为 TCP/IP VPC 路由需要 ENA。

仅限 EFA 在所有 AWS 区域(包括 AWS GovCloud [美国] 区域和 AWS 中国区域)中所有支持 EFA 的实例上提供。您可以免费启用 EFA 来大规模运行 AI/ML 工作负载。要了解更多信息,请参阅 EFA 文档