Publicado en: Sep 1, 2023
Los clientes ahora pueden transmitir en forma continua las respuestas de inferencia al cliente cuando utilizan la inferencia en tiempo real de SageMaker para ayudarle a crear experiencias interactivas para diversas aplicaciones de IA generativa, como chatbots, asistentes virtuales y generadores de música.
Con las aplicaciones interactivas de IA generativa, como los chatbots, puede leer la respuesta palabra por palabra a medida que el chatbot responde y no necesita esperar a recibir la respuesta completa. Para estas aplicaciones, minimizar el tiempo transcurrido hasta la primera respuesta de inferencia es especialmente importante para crear experiencias que resulten interactivas. Anteriormente, los puntos de conexión de SageMaker esperaban hasta que se completara la respuesta de inferencia completa antes de responder al cliente. Con la transmisión de respuestas, las inferencias parciales se devuelven en forma continua hasta que se completa la respuesta de inferencia completa.
Esta característica se encuentra disponible en todas las regiones comerciales en las que se ofrece SageMaker.
Para obtener más información sobre cómo usar la transmisión de respuestas junto con ejemplos, consulte nuestra documentación sobre la referencia de la API, la obtención de respuestas de transmisión, cómo deben responder los contenedores y el blog aquí.