Amazon Web Services ブログ
今すぐ利用可能 – NVIDIA T4 Tensor Core GPU を備えた EC2 インスタンス (G4)
今年初めに約束した NVIDIA を搭載した G4 インスタンスが利用可能になりました。6 つのサイズ、8 つの AWS リージョンで今すぐ使用できます。 機械学習のトレーニングと推論、ビデオトランスコーディング、ゲームストリーミング、およびリモートグラフィックのワークステーションアプリケーションに使用できます。
インスタンスには、最大 4 つの NVIDIA T4 Tensor Core GPU が備わっており、それぞれ 320 の Turing Tensor Core、2,560 CUDA Core、および 16 GB のメモリが搭載されています。T4 GPU は、機械学習の推論、コンピュータビジョン、ビデオ処理、リアルタイムの音声および自然言語処理に最適です。T4 GPU は、効率的なハードウェア駆動のレイトレーシングのための RT コアも提供します。NVIDIA Quadro Virtual Workstation (Quadro vWS) は、AWS Marketplace 内で入手できます。リアルタイムのレイトレースレンダリングをサポートし、メディアおよびエンターテイメント、アーキテクチャ、および石油とガスのアプリケーションでよく見られる創造的なワークフローを高速化することができます。
G4 インスタンスは、最大 64 個の vCPU を備えた AWS カスタムによる第 2 世代 Intel® Xeon® スケーラブル (Cascade Lake) プロセッサを搭載しており、AWS Nitro システム上に構築されています。Nitro のローカル NVMe ストレージビルディングブロックは、最大 1.8 TB の高速ローカル NVMe ストレージへの直接アクセスを提供します。Nitro のネットワークビルディングブロックは、高速 ENA ネットワーキングを実現します。Intel AVX512-Deep Learning Boost 機能は、Vector Neural Network Instructions (略して VNNI) の新しいセットで AVX-512 を拡張します。これらの手順は、多くの推論アルゴリズムの内部ループにある低精度の乗算操作と加算操作を高速化します。
インスタンスサイズについては、こちらをご覧ください。
インスタンス名 |
NVIDIA T4 Tensor Core GPU | vCPU | RAM | ローカルストレージ | EBS 帯域幅 | ネットワーク帯域幅 |
g4dn.xlarge | 1 | 4 | 16 GiB | 1 x 125 GB | 3.5 Gbps まで | 25 Gbps まで |
g4dn.2xlarge | 1 | 8 | 32 GiB | 1 x 225 GB | 3.5 Gbps まで | 25 Gbps まで |
g4dn.4xlarge | 1 | 16 | 64 GiB | 1 x 225 GB | 3.5 Gbps まで | 25 Gbps まで |
g4dn.8xlarge | 1 | 32 | 128 GiB | 1 x 900 GB | 7 Gbps | 50 Gbps |
g4dn.12xlarge | 4 | 48 | 192 GiB | 1 x 900 GB | 7 Gbps | 50 Gbps |
g4dn.16xlarge | 1 | 64 | 256 GiB | 1 x 900 GB | 7 Gbps | 50 Gbps |
また、ベアメタルインスタンスにも取り組んでおり、今後数か月以内に利用可能になる予定です。
インスタンス名 |
NVIDIA T4 Tensor Core GPU | vCPU | RAM | ローカルストレージ | EBS 帯域幅 | ネットワーク帯域幅 |
g4dn.metal | 8 | 96 | 384 GiB | 2 x 900 GB | 14 Gbps | 100 Gbps |
G4 インスタンスでグラフィックワークロードを実行する場合は、最新の NVIDIA AMI (AWS Marketplace 内で入手可能) を使用して、必要な GRID およびグラフィックドライバーに加えて、最新の最適化とパッチを含む NVIDIA Quadro Workstation イメージにアクセスできるようにします。こちらをご覧ください。
- NVIDIA ゲーム – Windows Server 2016
- NVIDIA ゲーム – Windows Server 2019
- NVIDIA ゲーム – Ubuntu 18.04
最新の AWS Deep Learning AMI には G4 インスタンスのサポートが含まれています。AMI を作成するチームは、g4dn.12xlarge インスタンスに対して g3.16xlarge インスタンスをベンチマークし、結果を私と共有しました。ハイライトは次のとおりです。
- MxNet 推論 (resnet50v2、MMS なしのフォワードパス) – 2.03 倍高速。
- MxNet 推論 (MMS を使用) – 1.45 倍高速。
- MxNet トレーニング (resnet50_v1b、1 GPU) – 2.19 倍高速。
- Tensorflow 推論 (resnet50v1.5、フォワードパス) – 2.00 倍高速。
- Tensorflow サービスによる Tensorflow 推論 (resnet50v2) – 1.72 倍高速。
- Tensorflow トレーニング (resnet50_v1.5) – 2.00 倍高速。
ベンチマークでは FP32 数値精度を使用しました。混合精度 (FP16) または低精度 (INT8) を使用すると、さらに大きなブーストを期待できます。
本日は、米国東部 (バージニア北部)、米国東部 (オハイオ)、米国西部 (オレゴン)、米国西部 (北カリフォルニア)、欧州 (フランクフルト)、欧州 (アイルランド)、欧州 (ロンドン)、アジアパシフィック (ソウル)、アジアパシフィック (東京) リージョンで G4 インスタンスを起動できます。また、Amazon SageMaker および Amazon EKS クラスターでアクセスできるように取り組んでいます。
— Jeff