Googleの研究チームは、LLM(大規模言語モデル)における検索拡張生成(RAG)の課題に対処すべく、「sufficient context(十分な文脈)」という新たな概念を導入した。これは、モデルがある問いに対して正確に回答するために、与えられた文脈が情報的に十分かどうかを自動で判別する手法である。

RAGはAIによる誤情報の抑制と信頼性向上を目的とするが、実際には不正確な回答や文脈無視、あるいは過剰な“自信”による幻覚(hallucination)が問題視されてきた。理想的なモデルは、情報が不十分であれば回答を控えるべきだが、現実には多くのモデルがそうはならない。

研究チームは、GeminiやGPT-4oなど複数のLLMを用い、QEQとAITAという個人相談データセットに基づいて、文脈の「十分・不十分」を分類し、応答精度と幻覚率を測定。その結果、文脈が十分であっても幻覚が発生する傾向が見られた一方で、「sufficient context」ラベルを導入した選択的生成手法により、回答精度が2〜10%向上した。

企業がRAGベースの社内FAQやカスタマーサポートAIを構築する際、本手法を活用することで、幻覚抑制や応答精度向上に繋がるとされる。

※本記事は、以下の記事をもとに翻訳・要約しています。
VentureBeat「Why enterprise RAG systems fail: Google study introduces ‘sufficient context’ solution」

コメント

AIに質問したとき、「それっぽいけど実は間違っていた」という経験はありませんか?これは、AIが“知っているふり”をしている状態、いわゆる「幻覚」と呼ばれる現象です。Googleが提案した「十分な文脈」という新しい考え方は、こうした問題を回避し、AIの信頼性を高める有力な手段となります。AIを業務に活用している方にとって、非常に参考になる研究ですので、今後の動向にぜひ注目してみてください。