投稿日: May 24, 2018
現在、内蔵型のAmazon SageMakerアルゴリズムを使ってトレーニングジョブを実行でき、パイプ入力モードによって最大35%の高速化が実現します。パイプ入力モードを使うことで、トレーニングジョブはAmazon Simple Storage Service (Amazon S3)から、トレーニングインスタンス上のアルゴリズムコンテナに直接ストリーミングされるため、トレーニングジョブの起動時間が短くなり、スループットが向上します。たとえば、ベンチマークでは、78GBのファイルで起動時間が最大10分向上し、一部のベンチマークではスループットが2倍速くなったことを示しました。
最適な速度を実現するために、トレーニングデータで最適化されたprotocufのrecordIOフォーマットを使用した場合に、ほとんどのAmazon SageMakerアルゴリズムは最高の動作を示します。このフォーマットを使用すると、パイプ入力モードをサポートしているアルゴリズムのトレーニング時に、パイプ入力モードを最大限活かすことができます。パイプ入力モード以前、すべてのデータは、ファイル入力モードを使って、Amazon S3から、トレーニングインスタンスに取り付けられたAmazon Elastic Block Store (Amazon EBS)ボリュームに読み込まれていました。この場合、最終的なモデルアーティファクトとトレーニングの全データセットを保存するためのディスク領域が必要でした。アルゴリズムが複数のエポックを要求し、トレーニングデータセットが小さくてメモリが十分に足りている場合に、今でもファイル入力モードが好まれますが、パイプ入力モードの方が大きなデータセットの処理に優れています。