AWS が AI/ML アプリケーションのスケーラビリティ向上のための EFA 更新を発表

投稿日: 2024年10月24日

AWS は、Elastic Fabric Adapter (EFA) を Elastic Network Adapter (ENA) から切り離す新しいインターフェイスタイプのリリースを発表しました。EFA は、AI/ML ワークロードのスケーリングに不可欠な高帯域幅、低レイテンシーのネットワークを提供します。「EFA のみ」という新しいインターフェイスでは、セカンダリインターフェイス上にスタンドアロンの EFA デバイスを作成できます。これにより、プライベート IPv4 アドレス空間に負担をかけたり、Linux に関連する IP ルーティングの問題に直面したりすることなく、コンピューティングクラスターをスケーリングして AI/ML アプリケーションを実行できます。

以前は、各 EFA インターフェイスは IP アドレスを消費する ENA デバイスと結合されていました。これにより、増加する AI/ML モデルのトレーニングジョブのスケーリングに制限が生じる可能性がありました。Linux では、プライベート IP を持つ複数のインターフェイスが使用される場合、送信元 IP の不一致によるパケットドロップやホスト名マッピングの問題など、ルーティングの問題が発生する可能性もあります。EFA のみのインターフェイスでは、MAC アドレスを介して動作する Scalable Reliable Datagram (SRD) プロトコルが使用されているため、EFA デバイスには IP アドレスが割り当てられないため、これらの問題は解決します。EFA のみのインターフェイスは、セカンダリインターフェイスとしてのみ設定できます。プライマリインターフェイスは、ENA と EFA を組み合わせるか、ENA のみを使用します。これは、ENA が TCP/IP VPC ルーティングに必要であるためです。

EFA のみのインターフェイスは、AWS GovCloud (米国) リージョンや AWS 中国リージョンを含むすべての AWS リージョンの EFA サポート対象インスタンスで利用できます。追加費用なしで EFA を有効にして、AI/ML ワークロードを大規模に実行できます。詳細については、EFA のドキュメントを参照してください。