Publicado: Sep 6, 2023
O Endpoint Multimodelo (MME) do SageMaker é um recurso totalmente gerenciado que permite aos clientes implantar milhares de modelos em um único endpoint do SageMaker e reduzir custos. Até hoje, o MME não era compatível com modelos do PyTorch implantados usando o TorchServe. Agora, os clientes podem usar o MME para implantar milhares de modelos do PyTorch usando o TorchServe para reduzir os custos de inferência.
Cada vez mais, os clientes estão criando modelos de machine learning usando o PyTorch para alcançar resultados comerciais. Para implantar esses modelos de machine learning, os clientes usam o TorchServe em instâncias de CPU/GPU para atingir as metas desejadas de latência e de throughput. No entanto, os custos poderão aumentar se os clientes estiverem implantando mais de 10 modelos. Com o suporte para MME do TorchServe, os clientes podem implantar milhares de modelos baseados em PyTorch em um único endpoint do SageMaker. Em segundo plano, o MME executará vários modelos em uma única instância e carregará e descarregará modelos dinamicamente em várias instâncias com base no tráfego de entrada. Com esse atributo, os clientes podem economizar custos, pois podem compartilhar instâncias atrás de um endpoint em milhares de modelos e pagar apenas pelo número de instâncias usadas.
Esse atributo é compatível com modelos do PyTorch que usam o SageMaker TorchServe Inference Container com todas as instâncias de CPU otimizadas para machine learning e as instâncias únicas de GPU nas famílias ml.g4dn, ml.g5, ml.p2, ml.p3. Ele também está disponível em todas as regiões com suporte pelo Amazon SageMaker.
Para começar a usá-lo, crie um endpoint MME com o tipo de instância de sua escolha usando nossas APIs ou o SDK do SageMaker para Python. Para saber mais, acesse nossa página de documentação sobre o MME para TorchServe e consulte nosso blog de lançamento.