Amazon SageMaker HyperPod

Reduzca el tiempo necesario para entrenar los modelos fundacionales hasta en un 40 % y escale en más de mil aceleradores de IA de manera eficiente

¿Qué es SageMaker HyperPod?

Amazon SageMaker HyperPod elimina el trabajo pesado e indiferenciado que implica crear y optimizar la infraestructura de machine learning (ML). Está preconfigurado con las bibliotecas de entrenamiento distribuidas de SageMaker, que dividen automáticamente las cargas de trabajo de entrenamiento en miles de aceleradores de IA, de modo que las cargas de trabajo se puedan procesar en paralelo para mejorar el rendimiento del modelo. SageMaker HyperPod garantiza un entrenamiento de FM ininterrumpido al guardar periódicamente los puntos de control. Detecta de forma automática un error de hardware cuando ocurre, repara o reemplaza la instancia con errores y reanuda el entrenamiento desde el último punto de control guardado, por lo que ya no es necesario administrar este proceso de forma manual. El entorno flexible le permite entrenar modelos durante semanas o meses en un entorno distribuido sin interrupciones, por lo que se ahorra hasta un 40 % en tiempo de entrenamiento. SageMaker HyperPod también es altamente personalizable, lo que le permite ejecutar y escalar de manera eficiente las cargas de trabajo de FM y compartir con facilidad la capacidad de computación entre diferentes cargas de trabajo, desde el entrenamiento a gran escala hasta la inferencia.

Beneficios de SageMaker HyperPod

Amazon SageMaker HyperPod viene preconfigurado con bibliotecas de entrenamiento distribuido de Amazon SageMaker, lo que le permite dividir automáticamente sus modelos y conjuntos de datos de entrenamiento en instancias de clúster de AWS para ayudarlo a escalar de manera eficiente las cargas de trabajo de entrenamiento.
SageMaker HyperPod es compatible con los sistemas populares de gestión de clústeres y programación de tareas, como Slurm y Amazon Elastic Kubernetes Service (EKS). Le brinda una experiencia de desarrollador superior, la capacidad de administrar aplicaciones en contenedores, el escalado dinámico de clústeres y la integración nativa de la nube a medida que escala sus cargas de trabajo de inferencia y entrenamiento de FM. Además, puede compartir recursos sin problemas entre la capacitación y la inferencia para optimizar aún más la utilización de los recursos.
SageMaker HyperPod permite un entorno de entrenamiento más flexible al detectar, diagnosticar y recuperarse automáticamente de los errores, lo que le permite entrenar de forma continua los modelos funcionales durante meses sin interrupciones.