Amazon Bedrock 模型评测现在包括 LLM-as-a-judge（预览版）

发布于: 2024年12月1日

借助 Amazon Bedrock 模型评测，您可以为您的应用场景评测、比较和选择最佳基础模型。现在，您可以使用一种新的评测功能：LLM-as-a-judge（预览版）。这使您可以选择 LLM 作为判断标准，以确保正确组合评测器模型和正在评测的模型。您可以在 Amazon Bedrock 上从多种 Judge LLM 中进行选择。您还可以选择精选的质量指标（例如正确性、完整性、专业风格和语气），以及响应式 AI 指标（例如危害性和拒绝答案）。现在，您还可以自带提示词数据集，以确保针对您的数据自定义评测，并且可以比较不同评测作业的结果，从而更快地做出决策。

以前，您可以在人工模型评测和使用精确字符串匹配和其他传统 NLP 指标的自动评测之间进行选择。这些方法虽然快速，但与人工评测者之间没有很强的相关性。现在，借助 LLM-as-a-judge，您能够以比完全人工评测低得多的成本获得类人工评测质量，同时节省数周的时间。您可以使用内置指标来评测客观事实，或对数据集的写作风格和语气进行主观评测。

要详细了解 Amazon Bedrock 模型评测的新 LLM-as-a-judge（包括可用的 AWS 区域），请阅读 AWS 新闻博客并参阅 Amazon Bedrock 评测页面。要开始使用，请登录 AWS 管理控制台或使用 Amazon Bedrock API。

Amazon Bedrock 模型评测现在包括 LLM-as-a-judge（预览版）

了解

资源

开发人员

帮助