Amazon SageMaker が AI 推論のための Scale Down to Zero を導入し、お客様のコスト削減を支援
Amazon SageMaker Inference の新機能である Scale Down to Zero を発表します。この機能を使用すると、使用していない時間帯にエンドポイントのインスタンスをゼロにスケールできます。この機能により、AI モデルを使用して推論を実行するコストを大幅に削減できるため、チャットボット、コンテンツモデレーションシステム、その他の生成 AI ユースケースなど、トラフィックパターンが変動するアプリケーションに特に役立ちます。
Scale Down to Zero を使用すると、SageMaker 推論エンドポイントで未使用時にインスタンス数を自動的にゼロにスケールさせ、トラフィックが再開されたらすぐにスケールアップするように設定できます。この機能は、予測可能なトラフィックパターン、断続的な推論トラフィック、開発/テスト環境などのシナリオに効果的です。SageMaker 推論コンポーネントを使えば、Scale Down to Zero を簡単に実装できます。自動スケーリングポリシーは、AWS SDK for Python (Boto3)、SageMaker Python SDK、または AWS コマンドラインインターフェイス (AWS CLI) を使用して設定します。実装するには、マネージドインスタンスのスケーリングを有効にしたエンドポイントをセットアップして、スケーリングポリシーを設定し、スケーリングアクションをトリガーする CloudWatch アラームを作成します。
Amazon SageMaker がサポートされているすべての AWS リージョンで、Scale Down to Zero が一般提供されるようになりました。Scale Down to Zero の実装と生成 AI デプロイのコスト最適化の詳細については、ドキュメントページをご覧ください。