OpenAIは、小型モデル「o4-mini」に対するファインチューニング機能を拡充し、組織向けに「強化ファインチューニング(RFT)」を導入した。RFTは、法律、金融、セキュリティなどの専門分野において、高度にカスタマイズされたAIモデルを構築するための手法である。

RFTでは、固定された正解ではなく、プログラム可能な「グレーダー(採点器)」が各応答を評価し、スタイルや正確性、セキュリティなどの基準に基づいてスコアを付与する。複数のグレーダーを組み合わせることで、より複雑で現実的な目標に対応可能となる。

この仕組みにより、モデルは高スコアを得る応答を優先的に学習する。学習プロセスは5段階で構成され、グレーダーの設定、データのアップロード、モデルの応答生成、評価、そしてポリシーの更新が行われる。RFTはOpenAIの評価ツールと統合されており、訓練中のリワード(報酬)スコアなどの指標も追跡可能である。

実例としては、企業の内部セキュリティ規定に関する質問に対し、「compliant(準拠しているかどうか)」と「explanation(説明)」の2つの要素を含むJSON形式の応答を生成・評価するという応用が紹介された。

また、RFTと並行して、OpenAIは「GPT-4.1 nano」向けに教師ありファインチューニング機能も提供開始した。このモデルはGPT-4系の中でも最速かつ低コストとされ、従来型の入力と出力のペアによるチューニングが可能である。

訓練データをOpenAIと共有した場合は、ファインチューニング料金が50%割引となる特典も設けられており、API経由で結果をそのまま既存アプリケーションに統合することも可能である。

※本記事は、以下の記事をもとに翻訳・要約しています。
THE DECODER「OpenAI adds new fine-tuning options for o4-mini and GPT-4.1」

コメント

OpenAIが発表したRFT(強化ファインチューニング)は、AIを業務に活用する企業にとって非常に有用な進展です。とくに、法律やセキュリティなど正確性が求められる分野では、単なる生成だけでなく、応答の品質を細かく制御できることが大きなメリットになります。GPT-4.1 nanoへの教師ありファインチューニングも開始されており、用途に応じた最適な調整がより身近になっています。AI導入を検討している方は、これを機にさらに一歩踏み出してみてはいかがでしょうか。