게시된 날짜: Nov 29, 2023
Amazon SageMaker에서 고객이 모델 배포 비용을 평균 50% 절감하고 추론 지연 시간을 평균 20% 단출할 수 있는 새로운 기능을 발표했습니다. 고객은 여러 모델을 동일한 인스턴스에 배포하여 기본 액셀러레이터를 더 효과적으로 활용할 수 있습니다. SageMaker는 추론 요청을 처리하는 인스턴스를 능동적으로 모니터링하고 사용 가능한 인스턴스를 기반으로 요청을 지능적으로 라우팅합니다.
이러한 기능은 SageMaker의 실시간 추론에 사용할 수 있으므로 ML 모델을 손쉽게 배포할 수 있습니다. 이제 하나 이상의 추론 구성 요소를 생성하여 SageMaker 엔드포인트에 배포할 수 있습니다. 추론 구성 요소는 ML 모델을 추상화하여 CPU, GPU 또는 Neuron 액셀러레이터를 할당하고 모델별로 조정 정책을 지정할 수 있도록 합니다. 엔드포인트 뒤의 여러 인스턴스에 각 모델을 지능적으로 배치하여 활용도를 극대화하고 비용을 절감할 것입니다. 각 모델은 독립적으로 스케일 업하거나 0까지 스케일 다운할 수 있습니다. 따라서 하드웨어 리소스를 확보하여 다른 모델에서 인스턴스의 액셀러레이터를 사용하도록 할 수 있습니다. 아울러 각 모델은 문제를 모니터링하고 디버그하는 데 도움이 되는 자체 지표와 로그를 내보냅니다. 요청을 더욱 균일하게 분산시켜 엔드 투 엔드 지연 시간을 줄이는 새로운 Least Outstanding Requests(LOR) 라우팅 알고리즘을 추가했습니다.
이러한 새 기능은 아시아 태평양(도쿄, 서울, 뭄바이, 싱가포르, 시드니, 자카르타), 캐나다(중부), 유럽(프랑크푸르트, 스톡홀름, 아일랜드, 런던), 중동(UAE), 남아메리카(상파울루), 미국 동부(버지니아 북부, 오하이오) 및 미국 서부(오레곤)에서 정식 버전으로 사용할 수 있습니다.