Publié le: Sep 6, 2023
SageMaker Multi-Model Endpoint (MME) est une fonctionnalité entièrement gérée qui permet aux clients de déployer des milliers de modèles sur un seul point de terminaison SageMaker et de réduire ainsi les coûts. Jusqu'à présent, MME n'était pas pris en charge pour les modèles PyTorch déployés à l'aide de TorchServe. Désormais, les clients peuvent utiliser MME pour déployer des milliers de modèles PyTorch à l'aide de TorchServe et réduire les coûts d'inférence.
Les clients construisent de plus en plus de modèles ML à l'aide de PyTorch pour obtenir des résultats commerciaux. Pour déployer ces modèles ML, les clients utilisent TorchServe sur des instances CPU/GPU afin d'atteindre les objectifs de latence et de débit souhaités. Mais les coûts peuvent s'accumuler si les clients déploient plus de 10 modèles. Avec la prise en charge de MME pour TorchServe, les clients peuvent déployer des milliers de modèles basés sur PyTorch sur un seul point de terminaison SageMaker. En coulisses, MME exécutera plusieurs modèles sur une seule instance et chargera/déchargera dynamiquement les modèles sur plusieurs instances en fonction du trafic entrant. Grâce à cette fonctionnalité, les clients peuvent réaliser des économies, car ils peuvent partager des instances derrière un point de terminaison entre des milliers de modèles et ne payer que pour les instances utilisées.
Cette fonctionnalité prend en charge les modèles PyTorch qui utilisent SageMaker TorchServe Inference Container avec toutes les instances CPU optimisées pour le machine learning et les instances GPU simples de la gamme ml.g4dn, ml.g5, ml.p2 et ml.p3. Elle est également disponible dans toutes les régions prises en charge par Amazon SageMaker.
Pour commencer, créez un point de terminaison MME avec le type d'instance de votre choix en utilisant nos API ou le SDK Python SageMaker. Pour en savoir plus, visitez notre page de documentation sur MME pour TorchServe et notre blog de lancement.