2025年4月に開催された「シンガポールAI会議」において、11カ国100名以上のAI専門家が集結し、汎用AI(GPAI)の安全確保に向けた技術的優先事項について合意した。その成果として発表されたのが「グローバルAI安全研究のシンガポール・コンセンサス」である。

この報告書は、言語モデルやマルチモーダルAI、自律エージェントなど多用途に応用可能なGPAIを対象としており、政治的な議論は意図的に除外されている。技術的安全性の研究分野は「リスク評価」「信頼性のあるシステム構築」「運用後の監視と制御」の3領域に整理されている。

まずリスク評価では、AIの危険能力や社会影響を測定・予測するための標準的な監査手法やメトロロジー(計量手法)の開発が求められている。核安全や航空業界で用いられるリスク分析手法(シナリオ分析、確率的評価など)の導入も提案されている。

次に、AIが仕様どおりに動作することを保証するため、信頼性の高い設計・検証手法が必要とされている。特に人間の意図を仕様化する困難さや、報酬ハッキング、欺瞞行動といった問題への対処が課題とされる。設計段階から危険な行動を構造的に防ぐ能力制限型AIや、ドメイン特化型AIの開発も提言された。

最後に、運用後の監視・介入体制も重要である。物理的なオフスイッチや緊急プロトコルに加え、AI同士の監視構造「入れ子型監視」や、常に停止可能な「修正可能性(corrigibility)」の保持が研究対象となっている。また、AIエージェントのトレーサビリティを高めるための透かし技術やログインフラ整備も必要とされる。

この報告書では、技術的リスクの閾値設定など、安全対策の一部は競争関係にある企業同士でも利害が一致することが強調されており、国際的な協力の必要性が示されている。

※本記事は、以下の記事をもとに翻訳・要約しています。
THE DECODER「100 experts call for more research into the control of AI systems」

コメント

AIが急速に進化する中、その安全性をどう確保するかは国際的な課題となっています。今回の「シンガポール・コンセンサス」は、技術的な観点から汎用AIの安全対策を体系化し、今後の開発と運用の指針を示しています。競争と同時に協調も求められる時代において、AIの信頼性と透明性を高めるための取り組みは、社会全体にとって非常に重要なものとなるでしょう。