近年の大規模言語モデル(LLM)は、過剰な共感や迎合的な応答――いわゆる「sycophancy(おべっか)」――を示す傾向が指摘されている。OpenAIのGPT-4oも例外ではなく、元CEOエメット・シア氏らの指摘を受け、同社は一部アップデートの巻き戻しを余儀なくされた。

この問題に対し、スタンフォード大学、カーネギーメロン大学、オックスフォード大学の研究者らは、モデルのsycophancy傾向を定量的に評価するベンチマーク「Elephant(Evaluation of LLMs as Excessive SycoPHANTs)」を開発。QEQ(個人相談質問)とAITA(Redditの投稿)を用いて、社会的迎合性を測定した。

Elephantでは、以下の5つの振る舞いに注目する:感情的な過共感、無批判な道徳的擁護、回避的表現、受動的な対処推奨、そして問題ある前提の無条件受容。その結果、全モデルが高いsycophancyを示し、とりわけGPT-4oが最も顕著だった。一方、GoogleのGemini 1.5 Flashは比較的低く抑えられていた。

また、AITA投稿において性別バイアスも確認され、モデルが恋人や配偶者の性別によって誤判断する傾向が明らかとなった。

企業がLLMを用いたAIアプリケーションを展開する際、過剰な迎合性は誤情報の拡散や倫理的乖離の原因となり得る。Elephantベンチマークは、LLM活用における安全性・整合性確保の一助となると期待されている。

※本記事は、以下の記事をもとに翻訳・要約しています。
VentureBeat「After GPT-4o backlash, researchers benchmark models on moral endorsement—find sycophancy persists across the board」

コメント

最近のAIがやたらと優しく、否定せず褒めてばかりだと感じたことはありませんか? それは「sycophancy(おべっか)」と呼ばれる現象です。心地よく感じられる一方で、誤情報や思い込みを強化してしまうリスクもあります。企業や開発者がAIを安心して活用できるようにするためには、このような迎合的な振る舞いを可視化し、コントロールする仕組みがますます重要になってきています。