Publicado en: Jan 24, 2019
La transformación por lotes de Amazon SageMaker ahora es compatible con el formato TFRecord como una propiedad SplitType compatible, lo que permite que los conjuntos de datos se dividan según los límites de TFRecord. Esto se agrega a la lista de formatos compatibles que incluyen RecordIO, CSV y Text.
Amazon SageMaker es un servicio completamente administrado que permite a todos los científicos de datos y desarrolladores crear, entrenar e implementar modelos de aprendizaje automático de forma rápida y sencilla. Una característica importante en SageMaker es la transformación por lotes, que permite ejecutar predicciones en los datos por lotes.
TFRecord es un formato de datos estándar de TensorFlow. Es un formato de archivo binario orientado a los registros, que permite el almacenamiento y el procesamiento eficiente de grandes conjuntos de datos. Con esta mejora, ahora es sencillo almacenar una secuencia de registros binarios y es ideal cuando se trabaja con grandes conjuntos de datos con la transformación por lotes de SageMaker. Para usar TFRecord cuando ejecuta trabajos de transformación por lotes, simplemente puede elegir TFRecord como propiedad de SplitType y su conjunto de datos se dividirá según los límites de TFRecord. Además, puede especificar un modificador BatchStrategy de la constante MultiRecord para agrupar varios registros en lotes a partir de una sola solicitud.
Ahora, la compatibilidad con TFRecord está disponible en todas las regiones de AWS donde Amazon SageMaker está disponible hoy. Para obtener más información, consulte la documentación y el ejemplo de muestra.