Publicado en: Nov 12, 2021
Hoy nos emociona anunciar el servidor de inferencia NVDIA Triton™ en Amazon SageMaker. Este permite a los clientes que escogen NVIDIA Triton como su servidor modelo trasladar sus contenedores a SageMaker e implementarlos a escala.
NVIDIA Triton es un servidor modelo de código abierto que ejecuta modelos de ML formados desde varios marcos de ML, entre estos, PyTorch, TensorFlow, XGBoost y ONNX. Triton es un servidor extensible al que los desarrolladores pueden agregar nuevos frontends, los cuales pueden recibir solicitudes en formatos específicos, y nuevos backends, que pueden controlar los tiempos de ejecución de modelos adicionales. AWS trabaja de cerca con NVIDIA para agregar un nuevo frontend de Triton que sea compatible con los contenedores alojados en SageMaker y un nuevo backend compatible con los modelos neocompilados de SageMaker. Como resultado, los clientes pueden crear con facilidad un contenedor nuevo que incluya su modelo con Triton y trasladarlo a SageMaker. La inferencia de SageMaker controlará las solicitudes y escalará de forma automática el contenedor a medida que aumente el uso, lo que facilita la implementación del modelo con Triton en AWS.
La compatibilidad con el servidor de inferencia de NVIDIA Triton™ en Amazon SageMaker se encuentra disponible en todas las regiones donde Amazon SageMaker está a disposición sin costo adicional para el contenedor del servidor de inferencia de Triton. Lea la documentación y el blog para obtener más información.