Amazon Bedrock 模型评估现在支持评估自定义模型
发布于:
2024年10月9日
借助 Amazon Bedrock 上的模型评估,您可以为您的应用场景评估、比较和选择最佳基础模型。Amazon Bedrock 提供了自动评估和人工评估选项。您可以将带有预定义算法的自动评估用于准确性、稳定性和毒性等指标。此外,对于那些指标或主观和自定义指标(例如友好度、风格、与品牌之声的一致性),您只需单击几下即可设置人工评估工作流程。人工评估工作流程可以利用您自己的员工或 AWS 管理的团队作为评审者。模型评估提供内置的精选数据集,或者您可以自带数据集。
现在,客户可以通过在 Amazon Bedrock 上进行微调和持续的预训练作业来评估自己的自定义微调模型。这使客户能够完成选择基本模型、自定义基本模型、评估基本模型以及在需要时再次进行自定义的周期,或者如果他们对评估结果感到满意,则可以继续生产。要评估自定义模型,只需在创建评估作业时从模型选择器工具中的模型列表选择要评估的模型即可。
Amazon Bedrock 上的模型评估现已在这些商业区域和 AWS GovCloud(美国西部)全面推出。
要了解有关 Amazon Bedrock 上的模型评估的更多信息,请参阅 Amazon Bedrock 开发人员体验网页。要开始使用,请在 AWS 管理控制台上登录 Amazon Bedrock 或使用 Amazon Bedrock API。