Publié le: Nov 29, 2023
Nous sommes ravis d'annoncer de nouvelles fonctionnalités sur Amazon SageMaker qui aident les clients à réduire les coûts de déploiement des modèles de 50 % en moyenne et à réduire de 20 % la latence d'inférence en moyenne. Les clients peuvent déployer plusieurs modèles sur la même instance afin de mieux utiliser les accélérateurs sous-jacents. SageMaker surveille activement les instances qui traitent les demandes d'inférence et achemine intelligemment les demandes en fonction des instances disponibles.
Ces fonctionnalités sont disponibles pour l'inférence en temps réel de SageMaker, ce qui facilite le déploiement de modèles ML. Vous pouvez désormais créer un ou plusieurs InferenceComponents et les déployer sur un point de terminaison SageMaker. Un InferenceComponent fait abstraction de votre modèle ML et vous permet d'attribuer des processeurs, des accélérateurs GPU ou Neuron, ainsi que des politiques de dimensionnement par modèle. Nous placerons intelligemment chaque modèle entre les instances situées derrière le terminal afin de maximiser l'utilisation et de réduire les coûts. Chaque modèle peut être augmenté indépendamment jusqu'à zéro. Cela libère des ressources matérielles pour que d'autres modèles puissent utiliser les accélérateurs de l'instance. Chaque modèle émettra également ses propres métriques et journaux pour vous aider à surveiller et à résoudre tout problème. Nous avons ajouté un nouvel algorithme de routage des demandes les moins en attente qui permet une distribution plus uniforme des demandes, ce qui réduit la latence de bout en bout.
Ces nouvelles fonctionnalités sont généralement disponibles dans les pays suivants : Asie-Pacifique (Tokyo, Séoul, Mumbai, Singapour, Sydney, Jakarta), Canada (Centre), Europe (Francfort, Stockholm, Irlande, Londres), Moyen-Orient (Émirats arabes unis), Amérique du Sud (Sao Paulo), USA Est (Virginie du Nord, Ohio) et USA Ouest (Oregon).
Pour en savoir plus, consultez notre page de documentation et notre page produit.