Publié le: Mar 18, 2024
Vous pouvez désormais bénéficier d'un rapport prix/performances encore meilleur pour les grands modèles de langage (LLM) exécutés sur l'infrastructure informatique accélérée NVIDIA lorsque vous utilisez Amazon SageMaker avec les microservices d'inférence NVIDIA NIM récemment intégrés. SageMaker est un service entièrement géré qui facilite la création, la formation et le déploiement du machine learning et des LLM, et NIM, qui fait partie de la plate-forme logicielle NVIDIA AI Enterprise, fournit des conteneurs IA hautes performances pour l'inférence avec les LLM.
Lorsqu'ils déploient des LLM pour des cas d'utilisation d'IA générative à grande échelle, les clients utilisent souvent des instances accélérées par GPU NVIDIA et des frameworks avancés tels que NVIDIA Triton Inference Server et NVIDIA TensorRT-LLM pour accélérer et optimiser les performances des LLM. Désormais, les clients utilisant Amazon SageMaker avec NVIDIA NIM peuvent déployer rapidement des LLM optimisés sur SageMaker et réduire le temps de déploiement de plusieurs jours à quelques minutes.
NIM propose des conteneurs pour une variété de LLM populaires qui sont optimisés pour l'inférence. Les LLM compatibles et prêts à l'emploi incluent Llama 2 (7B, 13B et 70B), Mistral-7b-Instrut, Mixtral-8x7b, NVIDIA Nemotron-3 8B et 43B, StarCoder et StarCoderPlus, qui utilisent des moteurs NVIDIA TensorRT™ préintégrés. Ces modèles sont sélectionnés avec les hyperparamètres les plus optimaux pour garantir un déploiement performant sur les GPU NVIDIA. Pour les autres modèles, NIM vous propose également des outils pour créer des versions optimisées pour le GPU. Pour commencer, utilisez le conteneur NIM disponible via le catalogue d'API NVIDIA et déployez-le sur Amazon SageMaker en créant un point de terminaison d'inférence.
Les conteneurs NIM sont accessibles dans toutes les régions AWS où Amazon SageMaker est disponible. Pour en savoir plus, consultez notre blog de lancement.