Publicado en: Sep 21, 2022
Hoy, nos complace anunciar que el piloto automático de Amazon SageMaker ha agregado un nuevo modo de entrenamiento que admite el agrupamiento de modelos con la tecnología de AutoGluon. Para conjuntos de datos de gran tamaño (< 100 MB), el modo de entrenamiento Ensemble (Agrupar) crea rápidamente modelos de machine learning (ML) con alta precisión, hasta 8 veces más rápido que el modo de entrenamiento HPO o Hyper Parameter Optimization (optimización de hiperparámetros) actual con 250 pruebas. El piloto automático de Amazon SageMaker crea, entrena y ajusta automáticamente los mejores modelos de ML en función de sus datos, a la vez que le permite mantener el control y la visibilidad totales. El modo HPO actual utiliza una combinación de valores de hiperparámetros para maximizar la precisión de un solo modelo. Sin embargo, en los casos en que un solo modelo no puede capturar las características complejas de los datos, combinar (o agrupar) las predicciones de diversos modelos puede mejorar significativamente la precisión general del modelo.
El modo de entrenamiento Ensemble (Agrupar) dentro del piloto automático de Amazon SageMaker utiliza AutoGluon para entrenar varios modelos base y combinar sus predicciones mediante el apilamiento de modelos. Admite una amplia gama de algoritmos, incluidos LightGBM, CatBoost, XGBoost, Random Forest, Extra Trees, Linear Models y Neural Networks, que están basados en PyTorch y FastAI. Para evaluar las mejoras de rendimiento de este modo con respecto al modo HPO, utilizamos múltiples conjuntos de datos de referencia de OpenML de hasta 100 MB. En función de los resultados, los trabajos de entrenamiento en conjuntos de datos más pequeños (menores de 1 MB) experimentaron una mejora general del tiempo de ejecución del trabajo de hasta 8 veces del piloto automático de SageMaker en comparación con el modo HPO con 250 pruebas (de un promedio de 120 minutos a 15 minutos) y una mejora de 5,8 veces en comparación con ese mismo modo con 100 pruebas. Los conjuntos de datos de tamaño medio (1-10 MB) y grandes (10-100 MB) experimentaron mejoras en el tiempo de ejecución de 5 y 2,5 veces respectivamente con respecto a 250 pruebas con el modo HPO y tuvieron una precisión aproximadamente un 1,9 % superior.
Para comenzar, cree un experimento del piloto automático de SageMaker en la consola de SageMaker Studio y seleccione el modo de entrenamiento “Ensemble” (Conjunto) o deje que el piloto automático de SageMaker infiera el modo de entrenamiento automáticamente en función del tamaño del conjunto de datos. Puede consultar la guía de referencia de la API createAutoMLJob para conocer las actualizaciones correspondientes y actualizar a la última versión de SageMaker Studio a fin de usar este nuevo modo de entrenamiento. Para obtener más información sobre esta característica, consulte la guía para desarrolladores. Si quiere obtener más información sobre el piloto automático de SageMaker, visite la página del producto.