Publicado en: Mar 26, 2021
Amazon Elastic Kubernetes Service (EKS) es compatible a partir de ahora con Elastic Fabric Adapter (EFA), lo cual permite a las aplicaciones lograr el rendimiento de un clúster de entrenamiento de machine learning en las instalaciones, junto con la escalabilidad, flexibilidad y elasticidad que brindan los clústeres de Kubernetes administrados por EKS.
Kubernetes se ha convertido en una plataforma líder para aplicaciones de machine learning distribuidas, puesto que facilita el escalado de clústeres para un número elevado de nodos con instancias basadas en potentes GPU. A escala, el ancho de banda de la red puede convertirse en un cuello de botella para cargas de trabajo distribuidas. Elastic Fabric Adapter (EFA) es una interfaz de red para instancias de Amazon EC2 que le permite ejecutar aplicaciones que requieren altos niveles de comunicación entre nodos a escala en AWS. Puede integrar EFA con facilidad en aplicaciones de entrenamiento distribuidas en Kubernetes mediante el nuevo complemento de dispositivos de EFA, que detecta y monta automáticamente dispositivos EFA en los pods que los soliciten. Esto le permite agregar ancho de banda a medida que los trabajos de entrenamiento de ML escalan horizontalmente para acomodar tamaños de modelos cada vez mayores. Ahora puede sacar todo el partido de los nuevos tipos de instancias EC2 con tecnología de GPU, como P4d, que incluyen varios dispositivos EFA para mejoras aún más notables en el tiempo de entrenamiento de modelos.
Elastic Fabric Adapter es compatible con todos los clústeres de EKS, y las instancias habilitadas por EFA pueden iniciarse mediante grupos de nodos administrados, eksctl o CloudFormation. Para comenzar, visite la documentación de Amazon EKS. Para obtener más información acerca de Amazon EKS, visite la página del producto. Más información sobre Elastic Fabric Adapter en la documentación de EC2.