Amazon Bedrock 提示缓存

如需预览权限，请联系您的 AWS 客户经理

概览

许多基础模型（FM）应用场景将在 API 调用中重复使用提示的某些部分（前缀）。通过提示缓存，支持的模型可允许您在请求之间缓存这些重复的提示前缀。该缓存允许模型跳过重新计算匹配前缀的步骤。因此，对于支持的模型，Amazon Bedrock 中的提示缓存可将成本降低多达 90%，并将延迟减少高达 85%。

提高多种应用场景的性能

许多应用程序都需要或受益于长提示，例如文档问答、代码助手、代理搜索或长篇聊天。即便使用最智能的基础模型，您也经常需要使用带有详细说明的大量多样本提示，才能为您的应用场景获得正确的结果。但是，在 API 调用中重复使用的长提示可能会导致平均延迟增加。使用提示缓存时，如果提示前缀已被缓存，则无需重新计算内部模型状态。这样可以节省处理时间，从而降低响应延迟。