게시된 날짜: Sep 6, 2023
SageMaker 다중 모델 엔드포인트(MME)는 고객이 단일 SageMaker 엔드포인트에 수천 개의 모델을 배포하고 비용을 절감하도록 지원하는 완전관리형 기능입니다. 지금까지는TorchServe를 사용하여 배포된 PyTorch 모델에는 MME가 지원되지 않았습니다. 이제부터는 MME를 사용하여 TorchServe로 수천 개의 PyTorch 모델을 배포하고 추론 비용을 절감할 수 있습니다.
비즈니스 성과를 달성하기 위해 PyTorch를 사용하여 ML 모델을 구축하는 고객이 점점 더 늘어나고 있습니다. 이러한 ML 모델을 배포하기 위해 고객은 CPU/GPU 인스턴스를 기반으로 TorchServe를 사용하여 원하는 지연 시간 및 처리량 목표를 달성합니다. 그러나 고객이 10개 이상의 모델을 배포하는 경우 비용이 추가될 수 있습니다. MME에서 TorchServe를 지원하므로 이제 고객은 단일 SageMaker 엔드포인트에 수천 개의 PyTorch 기반 모델을 배포할 수 있습니다. MME는 백그라운드에서 단일 인스턴스에서 여러 모델을 실행하고, 수신되는 트래픽을 기반으로 여러 인스턴스에서 모델을 동적으로 로드/언로드합니다. 이 기능을 사용하면 수천 개의 모델에서 엔드포인트 뒤의 인스턴스를 공유하고 사용한 인스턴스 수에 대해서만 비용을 지불하면 되므로 비용을 절감할 수 있습니다.
이 기능은 ml.g4dn, ml.g5, ml.p2, ml.p3 제품군의 모든 기계 학습 최적화 CPU 인스턴스 및 단일 GPU 인스턴스와 함께 SageMaker TorchServe 추론 컨테이너를 사용하는 PyTorch 모델을 지원합니다. 또한 Amazon SageMaker가 지원되는 모든 리전에서도 사용할 수 있습니다.
시작하려면 API 또는 SageMaker Python SDK를 사용하여 원하는 인스턴스 유형으로 MME 엔드포인트를 생성하세요. 자세히 알아보려면 TorchServe용 MME 설명서 페이지로 이동하거나 출시 블로그를 참조하세요.