AWS ParallelCluster 2.10

AWS ParallelCluster prend désormais en charge NVIDIA GPUDirect RDMA

Publié le: Nov 19, 2020

AWS ParallelCluster est un outil de gestion de clusters open source entièrement pris en charge et géré et qui facilite le déploiement et la gestion de clusters de calcul haute performance (HPC) sur le cloud AWS par les scientifiques, chercheurs et administrateurs informatiques. Les clusters HPC sont des collections de ressources de calcul, de stockage et de réseau étroitement liées qui permettent aux clients d'exécuter des charges de travail scientifiques et d'ingénierie à grande échelle.

La dernière version d’AWS ParallelCluster propose notamment les améliorations suivantes :

Support des instances P4d : les clients peuvent désormais sélectionner des instances P4d à utiliser dans leurs clusters. Ces instances incluent la prise en charge de NVIDIA GPUDirect Remote Direct Memory Access (RDMA) activé via Elastic Fabric Adapter, qui peut accélérer les applications étroitement couplées à l'aide de NVIDIA Collective Communications Library (NCCL) pour la communication GPU à GPU. Cette option peut être activée à l'aide du nouveau paramètre de configuration enable_efa_gdr.

Support du système d'exploitation CentOS 8 : les clients peuvent désormais choisir CentOS 8 comme système d'exploitation de base de choix afin d'exécuter leurs clusters pour les architectures x86 et Arm. Comme sur tous les systèmes d'exploitation pris en charge par AWS ParallelCluster, l'option base_os configuration permet de choisir le système d'exploitation. Vous pouvez également créer et utiliser votre propre AMI créé sur CentOS 8. Le support de CentOS 8 inclut également la compatibilité avec tous les planificateurs supportés par AWS ParallelCluster et NICE DCV pour la visualisation à distance.

Tableau de bord des métriques du cluster Amazon CloudWatch : les clients peuvent suivre et visualiser les métriques opérationnelles de leurs clusters dans CloudWatch. Cela inclut des métriques telles que l'utilisation du processeur et du réseau, les opérations de lecture et d'écriture de données du système de fichiers et les opérations de lecture et d'écriture pour les volumes Amazon Elastic Block Store. Les clients peuvent utiliser ce tableau de bord pour visualiser l'utilisation du cluster ou identifier les problèmes de performances afin de diagnostiquer la meilleure façon d'améliorer les performances du cluster.

AWS ParallelCluster est disponible sans coût supplémentaire, et vous ne payez que les ressources AWS nécessaires à l'exécution de vos applications. Pour savoir comment lancer un cluster HPC à l'aide d'AWS ParallelCluster, cliquez ici.

Pour obtenir des informations supplémentaires, consultez les notes de mise à jour de la dernière version d'AWS ParallelCluster ici.

AWS ParallelCluster prend désormais en charge NVIDIA GPUDirect RDMA

Fin de la prise en charge d'Internet Explorer