发布于: May 24, 2018
现在,利用内置的 Amazon SageMaker 算法使用管道输入模式运行训练作业,速度最高可提升 35%。利用管道输入模式,您的训练作业会直接将数据从 Amazon Simple Storage Service (Amazon S3) 流式传输到训练实例上的算法容器,从而缩短训练作业的启动时间并提高吞吐量。例如,基准测试表明,78GB 文件的启动时间最多可缩短 10 分钟,部分基准测试中的吞吐量增加了一倍。
如果您使用经过优化的 protobuf recordIO 训练数据格式来提升速度,那么大多数 Amazon SageMaker 算法都可以达到最佳效果。利用这种格式,您可以在训练支持该格式的算法时使用管道输入模式。在使用管道输入模式之前,您的所有数据都会从 Amazon S3 加载到训练实例附加的使用文件输入模式的 Amazon Elastic Block Store (Amazon EBS) 卷。文件输入模式需要利用磁盘空间来存储您的最终模型构件和完整的训练数据集。如果算法需要多个纪元,且训练数据集小到内存完全可以容纳,则文件输入模式仍是首选项。但如果数据集较大,那么管道输入模式效果更好。