发布于: Oct 10, 2018
Amazon SageMaker 现包括一个改善后的管道模式实施,借助此功能,可加快数据从 Amazon Simple Storage Service (S3) 流式传输到 SageMaker 的速度,并能训练机器学习 (ML) 模型。与文件模式相比,最新实施的管道模式可提供更高的数据流吞吐量,最高可为文件模式的 9 倍。
Amazon SageMaker 支持传输训练数据的以下两种方式:文件模式和管道模式。使用文件模式时,首先将训练数据下载到一个附加到训练实例的加密 EBS 卷,再训练模型。使用管道模式时,数据可在运行时直接流式传输到训练算法中。这可以加快训练任务的执行速度,减少磁盘空间使用,从而降低了在 SageMaker 上训练机器学习模型所需的总体成本。
您可以根据您的要求和环境来选择适用于您使用案例的模式。例如,如果训练数据集非常小,适合在内存中进行,并且您需要运行多个纪元的培训作业,这时,使用文件模式并将数据集完全加载到内容会比较容易。如果采用 I/O 定界算法,那么使用管道模式将能提高吞吐量,并能降低所需的磁盘卷大小。
最新实施的管道模式在提供 Amazon SageMaker 的所有 AWS 区域中均受支持。有关更多信息,请参阅 Amazon SageMaker 文档。