Publié le: Apr 13, 2023
AWS annonce aujourd'hui la disponibilité publique des instances Trn1n d'Amazon Elastic Compute Cloud (Amazon EC2), qui sont alimentées par les accélérateurs AWS Trainium. S'appuyant sur les fonctionnalités des instances Trn1 alimentées par Trainium, les instances Trn1n doublent la bande passante réseau pour atteindre 1 600 Gbit/s de l’Elastic Fabric Adapter (EFAv2) de deuxième génération. Grâce à cette augmentation de la bande passante, les instances Trn1n réduisent de 20 % le temps d’entraînement des modèles d'IA générative gourmands en réseau, tels que les grands modèles de langage (LLM) et le mélange d'experts (ME). À l'instar des instances Trn1, les instances Trn1n permettent d'économiser jusqu'à 50 % des coûts de formation par rapport à d'autres instances Amazon EC2 comparables.
Pour prendre en charge les modèles deep learning (DL) à grande échelle, les instances Trn1n sont déployées dans des UltraClusters EC2 dotées d'un réseau EFAv2 haut débit. L'EFAv2 accélère l’entraînement distribué en améliorant jusqu'à 50 % les performances de communication collective par rapport à l'EFA de première génération. Vous pouvez utiliser les UltraClusters pour passer à 30 000 accélérateurs Trainium et accéder, sur demande, à un superordinateur fournissant jusqu’à 6,3 exaflops de calcul.
À l’instar de Trn1, chaque instance Trn1 possède jusqu’à 512 Go de mémoire à large bande passante, fournit jusqu'à 3,4 pétaFLOPS de puissance de calcul Trn1n/FP16 et dispose de NeuronLink, une interconnexion non bloquante à large bande passante intra-instance. Le kit SDK AWS Neuron s'intègre nativement avec les frameworks de machine learning (ML) les plus utilisés, tels que PyTorch et TensorFlow, de sorte que vous pouvez continuer d’utiliser vos frameworks et votre code d'application existants pour entraîner des modèles DL sur Trn1n. Les développeurs peuvent exécuter des charges de travail d'entraînement DL sur des instances Trn1n à l'aide des AMI AWS Deep Learning, des conteneurs AWS Deep Learning ou de services gérés comme Amazon Elastic Container Service (Amazon ECS), AWS ParallelCluster, Amazon Elastic Kubernetes Service (Amazon EKS), Amazon SageMaker et AWS Batch.
Pour en savoir plus sur les instances Trn1n, consultez la page détaillée du produit Amazon EC2 Trn1n Instances. Pour démarrez avec les instances Trn1n, consultez la documentation Neuron.