Publicado en: Nov 29, 2023
Nos complace anunciar las nuevas capacidades de Amazon SageMaker que ayudan a los clientes a reducir los costos del despliegue de modelos aproximadamente en un 50 % y a lograr una latencia de inferencia un 20 % más baja en promedio. Los clientes pueden implementar varios modelos en la misma instancia para utilizar mejor los aceleradores subyacentes. SageMaker supervisa activamente las instancias que procesan las solicitudes de inferencia y enruta las solicitudes de manera inteligente en función de las instancias disponibles.
Estas características están disponibles para la inferencia en tiempo real de SageMaker, lo que facilita la implementación de modelos de aprendizaje automático. Ahora puede crear uno o más InferenceComponents e implementarlos en un punto de conexión de SageMaker. Un InferenceComponent abstrae el modelo de aprendizaje automático y le permite asignar CPU, GPU o aceleradores de neuronas y políticas de escalado por modelo. Colocaremos cada modelo de manera inteligente en las instancias detrás del punto de conexión para maximizar la utilización y ahorrar costos. Cada modelo se puede escalar y desescalar verticalmente de forma independiente hasta cero. Esto libera recursos de hardware para que otros modelos puedan utilizar los aceleradores de la instancia. Cada modelo también emitirá sus propias métricas y registros para ayudarlo a monitorear y depurar cualquier problema. Hemos agregado un nuevo algoritmo de enrutamiento de solicitudes menos pendientes que permite una distribución más uniforme de las solicitudes, lo que reduce la latencia de extremo a extremo.
Estas nuevas características están disponibles de forma general en las siguientes regiones: Asia-Pacífico (Tokio, Seúl, Bombay, Singapur, Sídney, Yakarta), Canadá (centro), Europa (Fráncfort, Estocolmo, Irlanda, Londres), Oriente Medio (Emiratos Árabes Unidos), América del Sur (São Paulo), Este de EE. UU. (Norte de Virginia, Ohio) y Oeste de EE. UU. (Oregón).
Para obtener más información, visite nuestra página de documentación y nuestra página de productos.