OpenAIは医療分野におけるAI評価のための新たなベンチマーク「HealthBench」を公開した。これは、現実的な医師と患者の対話を再現し、言語モデルがどの程度正確かつ適切に医療対応を行えるかを測定することを目的としている。
従来の医療系ベンチマークは、現場の実態を反映せず、医療専門家の監修が不足していたり、最新のモデルの進化を正確に測れなかったりする課題があった。これに対応するため、OpenAIは60カ国から集まった262人の医師と協力し、26の診療分野・49言語にわたる5,000のシナリオを作成。評価基準は「コミュニケーションの質」「指示の遵守」「正確性」「文脈理解」「情報の完全性」の5項目に分かれ、48,000件の医療的評価ポイントが設定されている。
評価はGPT-4.1により実施されており、その信頼性は医師間の一致率と同等であることが確認された。さらに、GPT-4.1および最新モデルのo3は、医師の回答を上回るスコアを達成。2024年時点では医師がAIの回答を修正した方が優れていたが、2025年4月の時点ではAIが単独で医師を上回る結果を示した。
ただしOpenAIは、これはチャット形式の評価であり、実際の臨床現場のやりとりとは異なる点に留意する必要があると述べている。また、「最悪ケースの信頼性」や、コスト効率(GPT-4.1 nanoは旧モデル比で25倍高効率)などの要素も重視されており、低リソース環境での利用にも期待がかかる。
今後の研究を支援するため、OpenAIは「Consensus」と「Hard」という2種の追加データセットも公開し、全ての評価基準とテストデータをGitHub上で公開している。
※本記事は、以下の記事をもとに翻訳・要約しています。
THE DECODER「OpenAI says its latest models outperform doctors in medical benchmark」
コメント
AIの医療分野での応用が現実味を増す中、OpenAIが開発した「HealthBench」はその性能と安全性を測る重要な指標となります。現役医師との比較においても高い成果を出している点は注目すべきです。ただし、実際の診療とは異なる形式での評価であるため、現場導入には慎重な検証が求められます。今後、コスト効率の高いモデルの普及が進めば、医療アクセスが限られた地域にも恩恵が広がる可能性があります。