投稿日: Sep 6, 2023
SageMaker マルチモデルエンドポイント (MME) はフルマネージド機能であり、お客様は 1 つの SageMaker エンドポイントに数千個のモデルをデプロイしてコストを削減できます。これまで、MME では、TorchServe を使用してデプロイされた PyTorch をサポートしていませんでした。本日より、お客様は MME を使用して、TorchServe ベースの PyTorch モデルを数千個デプロイできることで、推論コストを削減できるようになります。
お客様は、ビジネス成果を達成するために、PyTorch を使用して多数の機械学習モデルを構築しています。そして、このような機械学習モデルをデプロイするために、CPU/GPU インスタンスで TorchServe を使用して、必要なレイテンシーとスループットの目標を達成しています。ただし、デプロイするモデルが 10 個を超えると、コストがかさむ可能性があります。MME で TorchServe をサポートすることにより、お客様は 1 つの SageMaker エンドポイントに PyTorch ベースのモデルを数千個デプロイできます。バックグラウンドでは、MME が 1 つのインスタンスで複数のモデルを実行し、受信トラフィックに基づいて複数のインスタンスでモデルを動的にロード/アンロードします。この機能により、お客様は、エンドポイントでインスタンスを共有し、数千個のモデルをデプロイできるようになります。料金は、使用したインスタンスの数に応じてのみ発生するため、コストを節約できます。
この機能は、機械学習に合わせて最適化されたすべての CPU インスタンスと、ml.g4dn、ml.g5、ml.p2、ml.p3 ファミリーの 1 つの GPU インスタンスを備えた SageMaker TorchServe 推論コンテナを使用する PyTorch モデルをサポートします。また、Amazon SageMaker によってサポートされているすべてのリージョンでご利用いただけます。
開始するには、API または SageMaker Python SDK を使用して、任意のインスタンスタイプで MME エンドポイントを作成してください。詳細については、TorchServe 向けの MME に関するドキュメントページおよびリリースに関するブログをご覧ください。