Amazon Web Services ブログ

AWS が NVIDIA A100 Tensor コア GPU ベースの Amazon EC2 インスタンスの提供開始を計画

数万人もにおよぶ AWS のお客様が、機械学習 (ML) アプリケーションの構築を AWS に依存しています。AWS を使用して、Airbnb や Pinterest などのお客様は検索の推奨事項を最適化しています。また、Lyft や Toyota Research Institute は自動運転車プログラムを開発し、Capital One や Intuit は AI を利用した顧客アシスタントを構築およびデプロイしています。

AWS は、新興企業だけでなく大企業にも、さらに、初心者から ML 専門開発者に至るまで、あらゆるタイプのお客様に適した ML サービスと AI サービスを幅広くかつ深いポートフォリオで提供しています。このポートフォリオの基本的なコンポーネントには AWS のコンピューティング、ネットワーキング、ストレージサービスが含まれており、これらを使って、あらゆる規模の ML アプリケーションに強力かつコスト効率の高いインフラストラクチャを提供しています。

NVIDIA GPU を利用した、高性能で低コスト、さらに拡張性の高い深層学習向けコンピューティングインフラストラクチャ

モデルのトレーニング時間は、そのモデルの反復性や迅速な精度の向上性に直接影響します。NVIDIA® GPU をベースにした高性能でコスト効率の高い Amazon EC2 インスタンスへのアクセスを提供することで、AWS は業界をリードしています。

Amazon EC2 P3 インスタンスを介して、NVIDIA V100 Tensor コア GPUを提供した最初のクラウドが AWSでした。さらに、Amazon EC2 P3dn.24xlarge インスタンスを介して、業界最高のパフォーマンスモデルのトレーニング GPU プラットフォームもクラウドで提供しています。これらのインスタンスは、それぞれ 32 GB のメモリを備えた 8 個の NVIDIA V100 Tensor コア GPU、96 個のカスタム Intel® Xeon® Scalable (Skylake) vCPU、業界初のインスタンスあたり 100 Gbps のネットワーク帯域幅、Elastic Fabric Adapter (EFA) を介した高性能で低レイテンシーのネットワークファブリックを装備しています。

基盤となるインフラストラクチャにおけるこれらの新技術は、Amazon Simple Storage Service (Amazon S3)Amazon FSx for Lustre などの高性能ストレージサービスや ML フレームワークの最適化と組み合わせると、モデルの反復にかかる時間が大幅に削減し、精度の向上や新機能の導入を支援できます。AWS は最近、自然言語処理 (NLP) モデルの BERT を合計 2,048 GPU の 256 P3dn.24xlarge インスタンスにわたりトレーニングすることにより、これらの NVIDIA GPU インスタンスの記録的なパフォーマンス を実証しました。GPU インスタンスの大規模なクラスター全体にトレーニングジョブを分散することで、トレーニング時間を数日から 60 分強に短縮しました。

すべての ML モデルが同じであるとは限りません。モデルが異なると、ハードウェアアクセラレーションのレベルも異なります。最大 8 個の NVIDIA T4 Tensor コア GPU を備えた Amazon EC2 G4dn インスタンスは、ML 推論のための業界で最もコスト効率の高い GPU インスタンスで、複雑度の低い ML モデルのトレーニングやグラフィックを多用するアプリケーションに最高のパフォーマンスを提供します。

Amazon EC2 インスタンスに NVIDIA A100 Tensor コア GPU がもうすぐ搭載

AI モデルの複雑度が増すにつれ、モデルパラメータの数は数年前の ResNet-50 の 2,600 万個から 170 億個になりました。AWS のお客様は新しいモデルを使用しながら、より高速なモデルトレーニングをサポートできるさらに高性能なインスタンスを常に求めています。そこで AWS は、モデルのパフォーマンスを向上し、トレーニングのコストを削減するためにも、新しい NVIDIA A100 Tensor コア GPU をベースにした EC2 インスタンスを提供する予定であることを発表しました。大規模な分散トレーニングの場合、NVIDIA A100 GPU がベースの EC2 インスタンスは EC2 P3dn.24xlarge インスタンスの機能に基づいて構築されており、新しいパフォーマンスベンチマークを生み出すことが期待されています。NVIDIA A100 GPU ベースの EC2 インスタンスの詳細、および早期アクセスに参加したい場合は、こちらをご参照ください。


著者について

Geoff Murase は AWS EC2 加速化コンピューティングインスタンスのシニアプロダクトマーケティングマネージャーで、Graphics Processing Units (GPUs) や Field Programmable Gate Arrays (FPGAs) といったハードウェアベースのコンピューティングアクセラレーターへのアクセスを提供することで、お客様が自身のコンピューティングニーズに対応できるようにするお手伝いをしています。余暇にはバスケットボールをしたり、家族と一緒にサイクリングに出かけたりします。