发布于: Jan 24, 2019
Amazon SageMaker 批量转换现在支持将 TFRecord 格式作为受支持的 SplitType,从而支持按 TFRecord 边界分割数据集。在此之前,已经受支持的格式包括:RecordIO、CSV 和 Text。
Amazon SageMaker 是一项完全托管的服务,可以帮助开发人员和数据科学家快速轻松地构建、训练和部署机器学习模型。SageMaker 中的一项重要功能就是批量转换,它可让您对批量数据运行预测。
TFRecord 是标准的 TensorFlow 数据格式。它是面向记录的二进制文件格式,可让您有效地存储和处理大型数据集。推出这项增强功能之后,现在可以轻松使用 SageMaker 批量转换来存储一系列二进制记录,非常适合处理大型数据集。要在运行批量转换作业时使用 TFRecord,您只需选择 TFRecord 作为 SplitType,您的数据集就将按 TFRecord 边界进行分割。此外,您可以指定 MultiRecord 作为 BatchStrategy,以批量处理来自一个请求的多个记录。
目前所有提供 Amazon SageMaker 的 AWS 区域都提供 TFRecord 支持。要了解更多信息,请访问文档和示例。