投稿日: Nov 8, 2021

お客様がモデル構築のステップを定義し、オーケストレートすることを目的として構築されたサービスである Amazon SageMaker Pipelines は、失敗/停止したパイプラインの実行再開と、パイプラインステップの再試行ポリシーをサポートするようになりました。

SageMaker Pipelines provides はさまざまなステップ (例:処理、トレーニング、モデル登録、コールバック) を提供します。これらのステップを使用することにより、お客様は SageMaker Pipelines として ML モデル構築のワークフローを生産可能にすることができます。現在、これらの新機能により、お客様は SageMaker Pipelines の実行において、より良いオペレーション管理と柔軟性が可能になりました。

以前、パイプラインが失敗または停止した場合、お客様は新しく実行を開始する必要がありました。現在、失敗/停止したパイプラインを、前に失敗/停止したステップから再開することができます。この機能により、お客様はパイプラインを簡単にデバッグし、前に成功したステップを再度実行しなくても良いため、時間やリソースを節約することができます。

また、次のパラメータを使用してパイプラインステップの再試行ポリシーを設定できるようになりました。最大再試行回数、再試行の時間間隔、再試行間隔の割合、再試行の最大時間幅。これらのパラメータはパイプライン/ステップ単位で細かく設定することができ、オプションで特定のエラータイプに合わせてカスタマイズすることも可能です。この機能を使用することにより、お客様はモデル構築のパイプラインをオペレーション可能にし、一時的/断続的なエラーに対するフェイルセーフポリシーを組み込むことができます。

これらの機能は、Amazon SageMaker が利用できるすべての AWS リージョンで利用可能です。始めるには、Amazon SageMaker SDK または Studio から新しい SageMaker パイプラインを作成し、ドキュメントの再開および再試行ポリシーのページにアクセスしてください。