Publicado en: Oct 10, 2018
Amazon SageMaker ahora incluye una versión mejorada de la implementación del modo de canalización que agiliza la velocidad con la cual pueden transmitirse por streaming los datos desde Amazon Simple Storage Service (S3) a SageMaker, mientras se entrenan modelos de aprendizaje automático. La implementación más reciente del modo de canalización ofrece un nivel de desempeño de streaming de datos 9 veces superior en comparación con el modo de archivo.
Amazon SageMaker admite dos métodos de transferencia de datos de entrenamiento: modo de archivo y modo de canalización. En el modo de archivo, los datos de entrenamiento primero se descargan en un volumen de EBS cifrado adjunto a la instancia de entrenamiento antes de entrenar el modelo. En el modo de canalización, los datos se transmiten por streaming directamente al algoritmo de entrenamiento mientras se encuentra en ejecución. Este mecanismo genera trabajos de entrenamiento más ágiles y ocupa menor espacio en disco, lo que reduce de manera general los costos de entrenar modelos de aprendizaje automático en SageMaker.
En función de los requisitos y del entorno, puede elegir el modo más apropiado para su caso de uso. Por ejemplo, si el conjunto de datos de entrenamiento es lo suficientemente pequeño como para entrar en la memoria y si necesita ejecutar varias réplicas, tal vez resulte más sencillo usar el modo de archivo y cargar todo en la memoria. Si cuenta con un algoritmo enlazado de E/S y utiliza el modo de canalización, se aumentará el nivel de desempeño y se reducirá el tamaño del volumen de disco necesario.
La implementación más reciente del modo de canalización se admite en todas las regiones de AWS en las que Amazon SageMaker se encuentra disponible. Consulte la documentación de Amazon SageMaker para obtener más detalles.