Amazon Bedrock 模型评测 LLM-as-a-Judge 现已正式推出

发布于: 2025年3月20日

Amazon Bedrock 模型评测的 LLM-as-a-Judge 功能现已正式推出。借助 Amazon Bedrock 模型评测,您可以针对您的使用案例评测、比较和选择适当的模型。您可以从 Bedrock 上提供的几个 LLM 中选择一个作为您的判断标准,以确保正确组合评测器模型和正在评测的模型。您可以选择质量指标(例如正确性、完整性、专业风格和语气),以及负责任的人工智能指标(例如危害性和拒绝答案)。您可以评测 Amazon Bedrock 上提供的所有模型,包括无服务器模型、与 Converse API 兼容的 Bedrock Marketplace 模型、定制和蒸馏模型、导入模型和模型路由器。您还可以比较各个评测作业的结果。

*全新功能 – 更灵活的体验!*现在,您只需将已获取的推理响应纳入评测作业的输入提示数据集中(“自带推理响应”),即可评测托管在任意位置的任何模型或系统。这些推理响应可以来自 Amazon Bedrock 模型,也可以来自 Amazon Bedrock 之外托管的任何模型或应用程序,这使您能够在评测作业中绕过对 Amazon Bedrock 模型的调用,并将应用程序的所有中间步骤整合到最终响应中。

借助 LLM-as-a-Judge,您能够以更低的成本获得类人评测质量,同时节省数周的时间。

要了解更多信息,请访问 Amazon Bedrock 评测页面文档。要开始使用,请登录 AWS 管理控制台或使用 Amazon Bedrock API。