AWS Startup ブログ

【開催報告&資料公開】ML@Loft 第15回 コンテンツレビューにおけるLLM/ML活用のリアル

こんにちは!ソリューションアーキテクトの石見です。今回は10/24に開催したイベント、「ML@Loft #15. コンテンツレビューにおけるLLM/ML活用のリアル」の開催の様子をレポートします。

ML@Loft は AWS を用いて機械学習に取り組むデベロッパー/データサイエンティストのためのイベントです。過去の様子は登壇者のスライド付きで AWS Startup ブログ にまとまっています。最近は生成AI周りのトピックも取り上げており、今回はコンテンツレビューというユースケースに絞って実際に試行錯誤されている4社にご登壇いただきました。LLMをプロダクト導入すること自体の難しさや、精度向上の工夫など様々な観点でお話しいただきましたので、ここからは公開可能な範囲で共有させていただきます。

ライトニングトーク

野見山 賢人 氏 (株式会社 OPENREC) 「OPENREC.tv における LLM を用いたコンテンツ監視基盤の強化に至るまで」
資料:https://speakerdeck.com/clom/openrec-dot-tv-niokerullmwohuo-yong-sitajian-shi-xiao-lu-hua

株式会社 OPENRECの野見山氏から、OPENREC.tvにおける動画キャプチャのタイトル監視の効率化について、ルールベースとLLMを組み合わせたハイブリッドアプローチの導入事例が紹介されました。従来のNGワードによるフィルタリングでは、スラッシュやカンマなどの区切り文字を使用した意図的な回避が課題となっていましたが、Claude 3.5 Sonnetを活用したLLMベースの検証を組み合わせることで、より柔軟な対応を実現しています。

システムの実装では、Kubernetes環境上でCronJobを実行し、Amazon Bedrockを通じてLLMによる検証を行っています。プロンプトエンジニアリングでは、システムプロンプトにタイトルを正常・要注意に分類するために必要なルールを定義し、さらにサービス固有の用語を一般的な表現に置き換える読み替え対応表を含めることで、より正確な判定を可能にしています。

精度検証では、CS(カスタマーサポート)側で判定した、正常・要注意(BAN済み)のデータそれぞれ100件を用いてFew-shotとZero-shotの比較を行い、特に問題のある内容の検出において今回はZero-shotアプローチが優れた結果を示したため、これを採用しました。本番環境での1週間の検証では、LLMが正常判定した中でCSチームがNG判定をしたものは3%であり、これは動画の内容を含めて判断しているものが主だったので、CSチームからも必要十分な性能との評価を得ています。

今後自動化の範囲を拡大していく上ではサービス特性や監視の状況に合わせたプロンプトチューニングが必要ですが、更に精度向上を図った先にはチャットやコメント、ユーザーニックネームなど他のテキスト監視領域への横展開を検討しています。

松井 高宏 氏(合同会社 DMM.com)「生成AI(Claude3.5 Sonnet)による次世代型レビュー承認システムの実現:DMMの事例 」
資料:https://speakerdeck.com/takahiromatsui/sheng-cheng-ai-claude3-dot-5-sonnet-niyoru-ci-shi-dai-xing-rebiyucheng-ren-sisutemunoshi-xian


合同会社 DMM.comの松井氏より、生成AIを活用したレビュー承認システムの構築についての発表がありました。DMMは60以上の事業を展開しており、年間数十万件以上のレビューが投稿されています。レビュー承認作業の課題として、1日当たり1,500件以上のレビューを3人のオペレーターが目視チェックしており、月150時間以上の工数がかかっていました。また、レビュー投稿数は10年で10倍以上に増加しており、今後の工数増大が懸念されていました。

この課題に対し、Amazon Bedrock(Claude 3.5 Sonnet)を活用したレビュー承認システムを構築しました。ただし、初回のPoCでは一般的なベストプラクティスに沿って記述したプロンプトでも正解率は7-8割であり、判定精度をどう改善するかがチャレンジとなりました。最終的なシステムの特徴は、複雑な承認判定を単純なステップに分解してそれぞれを個別でLLM等で解いていくような、いわゆるPrompt Chainとして実装した点です。具体的には、1)あらかじめ用意されたNGワードの検出、2)不適切な可能性のある語彙のマーキング、3)大まかな検査項目に当てはまるかを確認するスクリーニング検査、4)検査項目ごとに詳細な判断基準や多数のNGサンプルを含んだプロンプトでの詳細分析、5)Chain-of-Thoughtを利用した最終判断 というステップで処理を行います。

初期ステップは少数トークンによる簡易検査で明らかに問題ないものを排除し、後期ステップは絞られた候補に対して多数のトークンで詳細分析をする工夫をいれることでコスト最適化も削減しました。

システムの成果として、98-99%の高い正解率を達成し、再現率・適合率も80%後半を実現。運用コストは1日約30ドルに抑えられています。現在は判定理由も掲載することで承認判定の補助として活用されており、オペレーターからも高評価を得ています。今後は完全自動化を目指しており、実現すれば月150時間以上の人的コストの削減が可能となります。

園田 亮平 氏(エムスリー株式会社)「AskDoctors 生成AIによる医師回答のガイドライン準拠チェック」

資料非公開につき登壇のアブストのみこちらで共有させていただきます。

“AskDoctorsはユーザーが直接医師に相談できる遠隔医療相談サービスです。医師の回答品質がユーザーの満足度に直結するため、医師回答がガイドラインに準拠しているかどうかを、LLMを使ってレビューする機能をリリースしました。今回はあくまで検証目的でのリリースであり、本番活用に持っていくためのアプローチの一例としてどなたかの参考になればと思い事例を発表します。”

川瀧 嘉和 氏(合同会社EXNOA)「リポジトリをまるごとAIでレビューする Long Contextモデルを利用したレビューシステムの紹介」
資料:https://speakerdeck.com/ykawataki/ml-at-loft-rihositoriwomarukotoaiterehiyusuru

合同会社EXNOAの川瀧氏より、Long Contextモデルを活用したリポジトリ全体のAIレビューシステムについて紹介がありました。DMM GAMESでは自社でパブリッシュするゲームタイトルの技術レビューを行っていますが、多様な言語やアーキテクチャに対応する必要があり、レビュワーの技術スタックでカバーしきれないケースもありました。

開発されたシステムは、Amazon ECSやAmazon Bedrockを用いてシンプルに構築され、WebインターフェースにはGradioを採用しています。レビュープロセスの中では、レビュー対象ファイルリストの作成、レビューの実行、レビュー結果の評価の部分でLLMを活用しました。

LLM周りの技術的な工夫として、一貫した回答を返しやすくするためにTemperatureを0付近に設定したり、レポジトリすべてをcontextに含められないケースも多いのでレビューするファイル自体をまずLLMで判別させたり、英語でPromptを構成するなどチューニングもされているそうです。

実際のレビュー例として、vllmというLLM推論ライブラリのレビューが紹介され、27件の改善提案のうち14件が有効な提案として評価されました。特に、複数のDockerfileにまたがる命名規則の不統一など、単一ファイルでは気付きにくい問題点を指摘できる点が特徴的です。

システムの導入により、誰でも簡単にAIレビューを実行でき、レビュワーの技術スタックによらず一定の精度のレビューが可能になりました。提案内容の妥当性を人間が評価できる必要があるという課題はありますが、レビュー品質は確実に向上したとのことです。

さいごに

次回は音声基盤モデル周りで来年頭の開催を計画しています。具体が固まればまたConnpassやSNS等で宣伝させていただきますので、もうしばらくお待ち下さい!

このブログの著者


石見 和也 (Iwami Kazuya)
Digital Nativeなお客様を担当しているSenior Solutions Architect (X: @kazuya_iwami)。お客様とより良いsystem designを日々模索しつつ、最近は業種横断で生成AIプロジェクトの活用支援も行っています。趣味はテニスとキャンプ。