Amazon Bedrock 模型评测现在包括 LLM-as-a-judge(预览版)

发布于: 2024年12月1日

借助 Amazon Bedrock 模型评测,您可以为您的应用场景评测、比较和选择最佳基础模型。现在,您可以使用一种新的评测功能:LLM-as-a-judge(预览版)。这使您可以选择 LLM 作为判断标准,以确保正确组合评测器模型和正在评测的模型。您可以在 Amazon Bedrock 上从多种 Judge LLM 中进行选择。您还可以选择精选的质量指标(例如正确性、完整性、专业风格和语气),以及响应式 AI 指标(例如危害性和拒绝答案)。现在,您还可以自带提示词数据集,以确保针对您的数据自定义评测,并且可以比较不同评测作业的结果,从而更快地做出决策。

以前,您可以在人工模型评测和使用精确字符串匹配和其他传统 NLP 指标的自动评测之间进行选择。这些方法虽然快速,但与人工评测者之间没有很强的相关性。现在,借助 LLM-as-a-judge,您能够以比完全人工评测低得多的成本获得类人工评测质量,同时节省数周的时间。您可以使用内置指标来评测客观事实,或对数据集的写作风格和语气进行主观评测。

要详细了解 Amazon Bedrock 模型评测的新 LLM-as-a-judge(包括可用的 AWS 区域),请阅读 AWS 新闻博客并参阅 Amazon Bedrock 评测页面。要开始使用,请登录 AWS 管理控制台或使用 Amazon Bedrock API。