今すぐ利用可能 – NVIDIA T4 Tensor Core GPU を備えた EC2 インスタンス (G4)

今年初めに約束した NVIDIA を搭載した G4 インスタンスが利用可能になりました。6 つのサイズ、8 つの AWS リージョンで今すぐ使用できます。機械学習のトレーニングと推論、ビデオトランスコーディング、ゲームストリーミング、およびリモートグラフィックのワークステーションアプリケーションに使用できます。

インスタンスには、最大 4 つの NVIDIA T4 Tensor Core GPU が備わっており、それぞれ 320 の Turing Tensor Core、2,560 CUDA Core、および 16 GB のメモリが搭載されています。T4 GPU は、機械学習の推論、コンピュータビジョン、ビデオ処理、リアルタイムの音声および自然言語処理に最適です。T4 GPU は、効率的なハードウェア駆動のレイトレーシングのための RT コアも提供します。NVIDIA Quadro Virtual Workstation (Quadro vWS) は、AWS Marketplace 内で入手できます。リアルタイムのレイトレースレンダリングをサポートし、メディアおよびエンターテイメント、アーキテクチャ、および石油とガスのアプリケーションでよく見られる創造的なワークフローを高速化することができます。

G4 インスタンスは、最大 64 個の vCPU を備えた AWS カスタムによる第 2 世代 Intel^® Xeon^® スケーラブル (Cascade Lake) プロセッサを搭載しており、AWS Nitro システム上に構築されています。Nitro のローカル NVMe ストレージビルディングブロックは、最大 1.8 TB の高速ローカル NVMe ストレージへの直接アクセスを提供します。Nitro のネットワークビルディングブロックは、高速 ENA ネットワーキングを実現します。Intel AVX512-Deep Learning Boost 機能は、Vector Neural Network Instructions (略して VNNI) の新しいセットで AVX-512 を拡張します。これらの手順は、多くの推論アルゴリズムの内部ループにある低精度の乗算操作と加算操作を高速化します。

インスタンスサイズについては、こちらをご覧ください。

インスタンス名	NVIDIA T4 Tensor Core GPU	vCPU	RAM	ローカルストレージ	EBS 帯域幅	ネットワーク帯域幅
g4dn.xlarge	1	4	16 GiB	1 x 125 GB	3.5 Gbps まで	25 Gbps まで
g4dn.2xlarge	1	8	32 GiB	1 x 225 GB	3.5 Gbps まで	25 Gbps まで
g4dn.4xlarge	1	16	64 GiB	1 x 225 GB	3.5 Gbps まで	25 Gbps まで
g4dn.8xlarge	1	32	128 GiB	1 x 900 GB	7 Gbps	50 Gbps
g4dn.12xlarge	4	48	192 GiB	1 x 900 GB	7 Gbps	50 Gbps
g4dn.16xlarge	1	64	256 GiB	1 x 900 GB	7 Gbps	50 Gbps

また、ベアメタルインスタンスにも取り組んでおり、今後数か月以内に利用可能になる予定です。

インスタンス名	NVIDIA T4 Tensor Core GPU	vCPU	RAM	ローカルストレージ	EBS 帯域幅	ネットワーク帯域幅
g4dn.metal	8	96	384 GiB	2 x 900 GB	14 Gbps	100 Gbps

G4 インスタンスでグラフィックワークロードを実行する場合は、最新の NVIDIA AMI (AWS Marketplace 内で入手可能) を使用して、必要な GRID およびグラフィックドライバーに加えて、最新の最適化とパッチを含む NVIDIA Quadro Workstation イメージにアクセスできるようにします。こちらをご覧ください。

NVIDIA ゲーム – Windows Server 2016
NVIDIA ゲーム – Windows Server 2019
NVIDIA ゲーム – Ubuntu 18.04

最新の AWS Deep Learning AMI には G4 インスタンスのサポートが含まれています。AMI を作成するチームは、g4dn.12xlarge インスタンスに対して g3.16xlarge インスタンスをベンチマークし、結果を私と共有しました。ハイライトは次のとおりです。

MxNet 推論 (resnet50v2、MMS なしのフォワードパス) – 2.03 倍高速。
MxNet 推論 (MMS を使用) – 1.45 倍高速。
MxNet トレーニング (resnet50_v1b、1 GPU) – 2.19 倍高速。
Tensorflow 推論 (resnet50v1.5、フォワードパス) – 2.00 倍高速。
Tensorflow サービスによる Tensorflow 推論 (resnet50v2) – 1.72 倍高速。
Tensorflow トレーニング (resnet50_v1.5) – 2.00 倍高速。

ベンチマークでは FP32 数値精度を使用しました。混合精度 (FP16) または低精度 (INT8) を使用すると、さらに大きなブーストを期待できます。

本日は、米国東部 (バージニア北部)、米国東部 (オハイオ)、米国西部 (オレゴン)、米国西部 (北カリフォルニア)、欧州 (フランクフルト)、欧州 (アイルランド)、欧州 (ロンドン)、アジアパシフィック (ソウル)、アジアパシフィック (東京) リージョンで G4 インスタンスを起動できます。また、Amazon SageMaker および Amazon EKS クラスターでアクセスできるように取り組んでいます。

— Jeff

Amazon Web Services ブログ

今すぐ利用可能 – NVIDIA T4 Tensor Core GPU を備えた EC2 インスタンス (G4)

お役立ちリンク

フォローお願いいたします

学ぶ

リソース

デベロッパー

ヘルプ