Amazon Bedrock 模型评测 LLM-as-a-Judge 现已正式推出

发布于: 2025年3月20日

Amazon Bedrock 模型评测的 LLM-as-a-Judge 功能现已正式推出。借助 Amazon Bedrock 模型评测，您可以针对您的使用案例评测、比较和选择适当的模型。您可以从 Bedrock 上提供的几个 LLM 中选择一个作为您的判断标准，以确保正确组合评测器模型和正在评测的模型。您可以选择质量指标（例如正确性、完整性、专业风格和语气），以及负责任的人工智能指标（例如危害性和拒绝答案）。您可以评测 Amazon Bedrock 上提供的所有模型，包括无服务器模型、与 Converse API 兼容的 Bedrock Marketplace 模型、定制和蒸馏模型、导入模型和模型路由器。您还可以比较各个评测作业的结果。

*全新功能 – 更灵活的体验！*现在，您只需将已获取的推理响应纳入评测作业的输入提示数据集中（“自带推理响应”），即可评测托管在任意位置的任何模型或系统。这些推理响应可以来自 Amazon Bedrock 模型，也可以来自 Amazon Bedrock 之外托管的任何模型或应用程序，这使您能够在评测作业中绕过对 Amazon Bedrock 模型的调用，并将应用程序的所有中间步骤整合到最终响应中。

借助 LLM-as-a-Judge，您能够以更低的成本获得类人评测质量，同时节省数周的时间。

要了解更多信息，请访问 Amazon Bedrock 评测页面和文档。要开始使用，请登录 AWS 管理控制台或使用 Amazon Bedrock API。

Amazon Bedrock 模型评测 LLM-as-a-Judge 现已正式推出

了解

资源

开发人员

帮助