Publié le: May 4, 2023

Nous sommes ravis d'annoncer la disponibilité des familles d'instances ml.inf2 et ml.trn1 sur Amazon SageMaker pour le déploiement de modèles de machine learning (ML) pour l'inférence en temps réel et asynchrone. Vous pouvez utiliser ces instances sur SageMaker pour obtenir des performances élevées à moindre coût pour les modèles d'intelligence artificielle (IA) génératifs, y compris les grands modèles de langage (LLM) et les transformateurs de vision. En outre, vous pouvez utiliser SageMaker Inference Recommender pour vous aider à exécuter des tests de charge et à évaluer les avantages en termes de rapport qualité-prix du déploiement de votre modèle sur ces instances.

Les instances ml.inf2 et ml.trn1 sont alimentées par les accélérateurs AWS Inferentia2 et Trainium respectivement.

  • Vous pouvez utiliser les instances ml.inf2 pour exécuter vos applications ML sur SageMaker à des fins de synthèse de texte, de , de génération de vidéos et d'images, de reconnaissance vocale, etc. Les instances ml.inf2 offrent jusqu'à 384 Go de mémoire d'accélération partagée pour une inférence performante d’IA générative.
  • Les instances ml.trn1 sont similaires aux instances ml.inf2 mais disposent de 512 Go de mémoire d'accélération partagée ; vous pouvez utiliser ces instances pour déployer des modèles encore plus volumineux sur SageMaker. En outre, ces instances disposent d'un maximum de 8 To de stockage sur disque SSD NVMe local pour un accès rapide aux charges de travail à des jeux de données et à des modèles volumineux.

Les instances ml.inf2 sont disponibles pour le déploiement de modèles sur SageMaker dans la régions USA Est (Ohio) et sur les instances ml.trn1 dans la régions USA Est (Virginie du Nord).

Vous pouvez facilement commencer à utiliser les conteneurs AWS Deep Learning (DLC) compatibles ml.trn1 et ml.inf2 pour PyTorch, Tensorflow, HuggingFace et Large Model Inference (LMI) lors du déploiement de points de terminaison (détails). Pour connaître les tarifs, veuillez consulter notre page de tarification.