投稿日: Oct 10, 2018
Amazon SageMaker がパイプモードの実装を改善し、機械学習 (ML) モデルのトレーニングをしながら、データを Amazon Simple Storage Service (S3) から SageMaker へのデータストリーミングの速度を上げます。パイプモードが最近実装されたことで、ファイルモードに比べてデータストリーミングのスループットが最大 9 倍改善されました。
Amazon SageMaker は、ファイルモードとパイプモードの 2 つの方式でのトレーニングデータ転送をサポートしています。ファイルモードでは、トレーニングデータは、モデルのトレーニングに先立って、トレーニングインスタンスに配置されて、暗号化された EBS ボリュームにまずダウンロードされます。パイプモードでは、データはトレーニングアルゴリズム実行中に直接そのアルゴリズムにストリーミングされます。その結果トレーニングはより早く、ディスクスペースも少なくなり、SageMaker で ML モデルをトレーニングするコストを全体的に削減できます。
お客様の要件と環境に応じて、ユースケースに合った適切なモードを選択できます。例えば、お使いのトレーニンスデータセットがメモリーに入りきる大きさで、複数のエポックを実行する必要のある場合、ファイルモードを用いて全部をメモリーに入れた方が簡単かも知れません。I/O に縛られたアルゴリズムをお使いの場合は、パイプモードの方がスループットが高く、要するディスクスボリュームのサイズも削減できます。
パイプモードの最新の実装は Amazon SageMaker をご利用いただける全 AWS リージョンでサポートされています。詳細に関しては、Amazon SageMaker のドキュメントを参照してください。