Publicado en: May 4, 2023
Nos complace anunciar la disponibilidad de las familias de instancias ml.inf2 y ml.trn1 en Amazon SageMaker para implementar modelos de machine learning (ML) para la inferencia asincrónica y en tiempo real. Puede utilizar estas instancias en SageMaker para lograr un alto rendimiento a un bajo costo para los modelos de inteligencia artificial (IA) generativa, incluidos los modelos de lenguajes de gran tamaño (LLM) y los transformadores de visión. Además, puede utilizar el Recomendador de inferencias de SageMaker para ayudarle a ejecutar pruebas de carga y evaluar las ventajas de la relación precio-rendimiento de la implementación del modelo en estas instancias.
Las instancias ml.inf2 y ml.trn1 funcionan con los aceleradores AWS Inferentia2 y Trainium, respectivamente.
- Puede utilizar las instancias ml.inf2 para ejecutar sus aplicaciones de ML en SageMaker para el resumen de textos, la , la generación de videos e imágenes, el reconocimiento de voz y mucho más. Las instancias de ml.inf2 ofrecen hasta 384 GB de memoria de acelerador compartida para una inferencia de IA generativa eficaz.
- Las instancias ml.trn1 son similares a las instancias ml.inf2, pero tienen 512 GB de memoria de acelerador compartida; puede utilizar estas instancias para implementar modelos aún más grandes en SageMaker. Además, estas instancias tienen hasta 8 TB de almacenamiento en unidades de estado sólido (SSD) NVMe locales para acceder rápidamente a grandes conjuntos de datos y modelos con cargas de trabajo.
Las instancias ml.inf2 están disponibles para el despliegue del modelo en SageMaker en el Este de EE. UU. (Ohio) y las instancias ml.trn1 en el Este de EE. UU. (Norte de Virginia).
Puede empezar a utilizar fácilmente contenedores de aprendizaje profundo (DLC) de AWS compatibles con ml.trn1 y ml.inf2 para PyTorch, Tensorflow, HuggingFace y Large Model Inference (LMI) al implementar puntos de conexión (detalles). Para conocer los precios, visite nuestra página de precios.