投稿日: Apr 13, 2023
AWS は本日、AWS Trainium アクセラレーターを搭載した、Amazon Elastic Compute Cloud (Amazon EC2) Trn1n インスタンスの一般提供を開始しました。Trainium 搭載の Trn1 インスタンスの機能を基盤とする Trn1n インスタンスでは、ネットワーク帯域幅が、第 2 世代の Elastic Fabric Adapter (EFAv2) の 1600 Gbps へと倍増しています。このように帯域幅が増えたことで、Trn1n インスタンスでは、大規模言語モデル (LLM) や混合エキスパート (MoE) など、ネットワーク集約型の生成系 AI モデルのトレーニングにかかる時間が最大 20% 短縮されます。Trn1 インスタンスと同じように、Trn1n インスタンスを使用すれば、他の同等の Amazon EC2 インスタンスよりもトレーニングコストを最大で 50% 節約できます。
大規模な深層学習 (DL) モデルをサポートするため、Trn1n インスタンスは、高速 EFAv2 ネットワークを使用して EC2 UltraCluster にデプロイされます。EFAv2 は、第 1 世代の EFA に比べて集合通信のパフォーマンスが最大で 50% 向上しており、分散型トレーニングを高速化します。UltraCluster を使用すれば、最大で 30,000 基の Trainium アクセラレーターにスケールし、6.3 エクサフロップスのコンピューティング性能を備えたスーパーコンピュータにオンデマンドでアクセスできます。
Trn1 と同様に、各 Trn1n インスタンスは、最大 512 GB の高帯域幅メモリ、最大 3.4 ペタフロップスの FP16/BF16 コンピューティング能力、そして、インスタンス内の高帯域幅ノンブロッキング相互接続である NeuronLink を備えています。AWS Neuron SDK には、PyTorch や TensorFlow など、一般的な機械学習 (ML) フレームワークがネイティブに統合されています。そのため、Trn1n での DL モデルのトレーニングには、お使いのフレームワークとアプリケーションをそのまま使用できます。デベロッパーは、DL トレーニングのワークロードを、AWS Deep Learning AMI や AWS Deep Learning Containers を使用して、あるいは、Amazon Elastic Container Service (Amazon ECS)、Amazon Elastic Kubernetes Service (Amazon EKS)、AWS ParallelCluster、Amazon SageMaker、AWS Batch などのマネージドサービスを使用して、Trn1n インスタンス上で実行できます。
Trn1n インスタンスの詳細については、Amazon EC2 Trn1n インスタンスの製品詳細ページを参照してください。Trn1n インスタンスの使用方法については、Neuron のドキュメントを参照してください。