Amazon Bedrock Knowledge Bases が RAG 評価のサポートを開始 (プレビュー)

投稿日: 2024年12月1日

本日、Amazon Bedrock Knowledge Bases での RAG 評価のサポートについて発表します。この機能により、Amazon Bedrock Knowledge Bases で構築された検索拡張生成 (RAG) アプリケーションを評価できます。情報検索または検索とコンテンツ生成のどちらかを評価できます。評価には LLM-as-a-Judge テクノロジーが採用されており、お客様は複数のジャッジモデルから選択できます。検索評価では、コンテキストの関連性や対象範囲などのメトリクスを選択できます。検索と生成の評価では、正確性、完全性、忠実性 (ハルシネーション検知) などの品質メトリクスと、有害性、回答拒否、固定観念などの責任ある AI メトリクスから選択できます。また、複数の評価ジョブを比較して、チャンキング戦略やベクトル長などのさまざまな設定、またはさまざまなコンテンツ生成モデルを使用して Knowledge Bases を比較することもできます。

検索と生成には最適化が必要なコンポーネントが多数あるため、RAG アプリケーションの評価は難しくなる場合があります。今後は、Amazon Bedrock Knowledge Bases の RAG 評価ツールにより、お客様はデータや LLM がすでに存在している Knowledge Base ベースのアプリケーションを簡単かつ迅速に評価できるようになります。さらに、Amazon Bedrock のガードレールを評価に直接組み込んで、より詳細なテストを行うこともできます。Amazon Bedrock でこれらの RAG 評価ツールを使用すると、完全にオフラインの人間による評価と比較して、コストだけでなく数週間もの時間を節約でき、アプリケーションの改善をより迅速かつ簡単に行うことができます。

利用可能なリージョンなどの詳細については、AWS ニュースブログAmazon Bedrock 評価のページをご覧ください。利用を開始するには、Amazon Bedrock コンソールにログインするか、Amazon Bedrock API を使用してください。