アリババの研究機関「Tongyi」は、検索エンジンを使わずに大規模言語モデル(LLM)に検索能力を学習させる新手法「ZeroSearch」を発表した。通常、LLMが情報を的確に検索・回答するためには、Googleなどの実際の検索エンジンを用いた強化学習(RL)が必要とされてきたが、この方法はコストが高く、制御も困難である。
ZeroSearchでは、実際の検索を使わず、別のLLMが生成する模擬検索結果を用いる。この「検索シミュレーションモデル」は、検索クエリに対して有益または意図的に無関係な文章を返すことで、現実に近い検索体験を再現する。これにより、研究者は訓練環境を完全に制御できる。
トレーニングには「Qwen-2.5」モデルが使われ、3段階のプロセスで学習が進行する。モデルは自身で情報検索の要否を判断し、仮想クエリを生成。検索シミュレーションからの応答に対して強化学習によるフィードバックを受ける。この際、訓練初期は有用な情報が多く与えられ、後半になるほど質が下がるカリキュラム型学習が行われる。
この手法により、モデルは複数段階の検索や推論も可能になる。たとえば「スモーキー・ベアの声優の配偶者は誰か?」という質問に対し、まずサム・エリオットが声優であると特定し、次にその配偶者であるキャサリン・ロスにたどり着くといった過程を自力で実行できた。
実験では、ZeroSearchはGoogle検索を用いた従来法と比較して、学習コストを約88%削減しつつ、7つのQ&Aベンチマークで同等または上回る精度を示した。アリババは一部のモデルをHuggingFaceで公開しており、GitHub上で詳細なコードも提供している。
※本記事は、以下の記事をもとに翻訳・要約しています。
THE DECODER「ZeroSearch: Alibaba trains search assistant in AI simulation」
コメント
ZeroSearchは、生成AIの未来における検索学習の在り方を根本から変えるかもしれません。これまで高額なAPIコストや検索依存に悩まされていたAI開発にとって、独自制御可能な模擬検索は画期的です。特に「質問を分解し、段階的に答えを導く能力」が高いことは、今後の実用AIにも直結する大きな進歩です。私たちが使うAIが、将来もっと柔軟かつ効率的に情報を提供してくれるようになると期待できそうですね。