Amazon Web Services ブログ

今すぐ利用可能 – NVIDIA T4 Tensor Core GPU を備えた EC2 インスタンス (G4)

今年初めに約束した NVIDIA を搭載した G4 インスタンスが利用可能になりました。6 つのサイズ、8 つの AWS リージョンで今すぐ使用できます。 機械学習のトレーニングと推論、ビデオトランスコーディング、ゲームストリーミング、およびリモートグラフィックのワークステーションアプリケーションに使用できます。

インスタンスには、最大 4 つの NVIDIA T4 Tensor Core GPU が備わっており、それぞれ 320 の Turing Tensor Core、2,560 CUDA Core、および 16 GB のメモリが搭載されています。T4 GPU は、機械学習の推論、コンピュータビジョン、ビデオ処理、リアルタイムの音声および自然言語処理に最適です。T4 GPU は、効率的なハードウェア駆動のレイトレーシングのための RT コアも提供します。NVIDIA Quadro Virtual Workstation (Quadro vWS) は、AWS Marketplace 内で入手できます。リアルタイムのレイトレースレンダリングをサポートし、メディアおよびエンターテイメント、アーキテクチャ、および石油とガスのアプリケーションでよく見られる創造的なワークフローを高速化することができます。

G4 インスタンスは、最大 64 個の vCPU を備えた AWS カスタムによる第 2 世代 Intel® Xeon® スケーラブル (Cascade Lake) プロセッサを搭載しており、AWS Nitro システム上に構築されています。Nitro のローカル NVMe ストレージビルディングブロックは、最大 1.8 TB の高速ローカル NVMe ストレージへの直接アクセスを提供します。Nitro のネットワークビルディングブロックは、高速 ENA ネットワーキングを実現します。Intel AVX512-Deep Learning Boost 機能は、Vector Neural Network Instructions (略して VNNI) の新しいセットで AVX-512 を拡張します。これらの手順は、多くの推論アルゴリズムの内部ループにある低精度の乗算操作と加算操作を高速化します。

インスタンスサイズについては、こちらをご覧ください。

インスタンス名
NVIDIA T4 Tensor Core GPU vCPU RAM ローカルストレージ EBS 帯域幅 ネットワーク帯域幅
g4dn.xlarge 1 4 16 GiB 1 x 125 GB 3.5 Gbps まで 25 Gbps まで
g4dn.2xlarge 1 8 32 GiB 1 x 225 GB 3.5 Gbps まで 25 Gbps まで
g4dn.4xlarge 1 16 64 GiB 1 x 225 GB 3.5 Gbps まで 25 Gbps まで
g4dn.8xlarge 1 32 128 GiB 1 x 900 GB 7 Gbps 50 Gbps
g4dn.12xlarge 4 48 192 GiB 1 x 900 GB 7 Gbps 50 Gbps
g4dn.16xlarge 1 64 256 GiB 1 x 900 GB 7 Gbps 50 Gbps

また、ベアメタルインスタンスにも取り組んでおり、今後数か月以内に利用可能になる予定です。

インスタンス名
NVIDIA T4 Tensor Core GPU vCPU RAM ローカルストレージ EBS 帯域幅 ネットワーク帯域幅
g4dn.metal 8 96 384 GiB 2 x 900 GB 14 Gbps 100 Gbps

G4 インスタンスでグラフィックワークロードを実行する場合は、最新の NVIDIA AMI (AWS Marketplace 内で入手可能) を使用して、必要な GRID およびグラフィックドライバーに加えて、最新の最適化とパッチを含む NVIDIA Quadro Workstation イメージにアクセスできるようにします。こちらをご覧ください。

  • NVIDIA ゲーム – Windows Server 2016
  • NVIDIA ゲーム – Windows Server 2019
  • NVIDIA ゲーム – Ubuntu 18.04

最新の AWS Deep Learning AMI には G4 インスタンスのサポートが含まれています。AMI を作成するチームは、g4dn.12xlarge インスタンスに対して g3.16xlarge インスタンスをベンチマークし、結果を私と共有しました。ハイライトは次のとおりです。

  • MxNet 推論 (resnet50v2、MMS なしのフォワードパス) – 2.03 倍高速。
  • MxNet 推論 (MMS を使用) – 1.45 倍高速。
  • MxNet トレーニング (resnet50_v1b、1 GPU) – 2.19 倍高速。
  • Tensorflow 推論 (resnet50v1.5、フォワードパス) – 2.00 倍高速。
  • Tensorflow サービスによる Tensorflow 推論 (resnet50v2) – 1.72 倍高速。
  • Tensorflow トレーニング (resnet50_v1.5) – 2.00 倍高速。

ベンチマークでは FP32 数値精度を使用しました。混合精度 (FP16) または低精度 (INT8) を使用すると、さらに大きなブーストを期待できます。

本日は、米国東部 (バージニア北部)米国東部 (オハイオ)米国西部 (オレゴン)米国西部 (北カリフォルニア)欧州 (フランクフルト)欧州 (アイルランド)欧州 (ロンドン)アジアパシフィック (ソウル)アジアパシフィック (東京) リージョンで G4 インスタンスを起動できます。また、Amazon SageMaker および Amazon EKS クラスターでアクセスできるように取り組んでいます。

Jeff