Amazon Bedrock のモデル評価で LLM-as-a-judge を提供 (プレビュー)
Amazon Bedrock のモデル評価では、基盤モデルを評価、比較して、ユースケースに最適なモデルを選択することができます。今回、新しい評価機能である LLM-as-a-judge をプレビューで使用できるようになりました。これにより、LLM をジャッジとして選び、評価モデルと評価対象モデルの適切な組み合わせを確認することができます。Amazon Bedrock では、いくつかのジャッジ LLM から選べます。また、正確性、完全性、専門的なスタイルとトーンなどの厳選された品質メトリクスや、有害性や回答拒否などの責任ある AI のメトリクスを選択することもできます。また、独自のプロンプトデータセットを用意して、評価がデータに合わせてカスタマイズされるようにしたり、評価ジョブ間で結果を比較したりして、より迅速に意思決定を下せるようになりました。
以前は、人間によるモデル評価と、厳密な文字列マッチングやその他の従来の NLP メトリクスによる自動評価のいずれかを選択する必要がありました。これらの手法は速いものの、人間の評価者との強い相関関係はありませんでした。今後は、LLM-as-a-judge を使うことで、完全な人間ベースの評価よりもはるかに低いコストで、人間のような評価品質を得ることができ、同時に数週間分もの時間を節約できます。組み込みのメトリクスを使用して、客観的な事実を評価したり、データセットの文体やトーンを主観的に評価したりできます。
利用可能な AWS リージョンを含む Amazon Bedrock モデル評価の新しい LLM-as-a-judge の詳細については、AWS ニュースブログと Amazon Bedrock 評価のページをご覧ください。利用を開始するには、AWS マネジメントコンソールにサインインするか、Amazon Bedrock API を使用してください。