Publicado: Sep 1, 2023
Agora, os clientes que usam a inferência em tempo real do SageMaker podem transmitir continuamente respostas de inferência para o cliente, o que ajuda a criar experiências interativas para várias aplicações de IA generativa, como chatbots, assistentes virtuais e geradores de música.
Nas aplicações interativas de IA generativa, como chatbots, você pode ler a resposta palavra por palavra enquanto o chatbot está respondendo, sem precisar esperar pela resposta completa. Para essas aplicações, é muito importante minimizar o tempo de resposta à primeira inferência para criar experiências que pareçam interativas. Anteriormente, os endpoints do SageMaker aguardavam a conclusão da resposta da inferência antes de responder ao cliente. Com o streaming de respostas, inferências parciais são retornadas continuamente até a conclusão da resposta da inferência.
Esse recurso está disponível em todas as regiões comerciais onde o SageMaker é oferecido.
Para obter mais detalhes sobre como usar o streaming de respostas e ver exemplos desse recurso, consulte a referência da API, a documentação sobre como obter streaming de respostas e como os contêineres devem responder, e consulte este blog.