Publié le: Mar 26, 2021
Maintenant, Amazon Elastic Kubernetes Service (EKS) prend en charge Elastic Fabric Adapter (EFA) et permet ainsi aux applications d'atteindre des performances d'un cluster d'entraînement de machine learning sur site, avec la scalabilité, la flexibilité et l'élasticité fournies par les clusters Kubernetes gérés par EKS.
Kubernetes est devenue une plateforme leader pour les applications de machine learning distribuées car elle facilite la mise à l'échelle des clusters pour assumer un grand nombre de nœuds avec de puissantes instances basées sur GPU. À grande échelle, la bande passante réseau peut être un goulot d'étranglement pour les charges de travail distribuées. Elastic Fabric Adapter (EFA) est une interface réseau pour les instances Amazon EC2 qui permet aux clients d'exécuter des applications nécessitant de hauts niveaux de communications entre les nœuds à grande échelle sur AWS. Désormais, vous pouvez facilement intégrer EFA aux applications d'entraînement distribuées sur Kubernetes en utilisant le nouveau plugin d'appareil EFA. Celui-ci identifie et monte automatiquement les appareils EFA dans les pods qui les demandent. Cela vous permet d'augmenter la bande passante à mesure que les tâches d'entraînement ML évoluent horizontalement afin de gérer les tailles de modèle toujours grandissantes. Vous pouvez désormais profiter pleinement des derniers types d'instances alimentées par GPU EC2 tels que P4d qui incluent plusieurs appareils EFA et réduire ainsi encore plus les temps d'entraînement nécessaires des modèles.
Elastic Fabric Adapter est disponible sur tous les clusters EKS. Les instances prenant en charge EFA peuvent être lancées à l'aide des groupes de nœuds gérés, eksctl ou CloudFormation. Pour démarrer, consultez ladocumentation Amazon EKS. Pour en savoir plus sur Amazon EKS, consultez la page produit. Obtenez plus d'informations sur Elastic Fabric Adapter en lisant la documentation EC2.