Microsoftの研究チームは、ソフトウェア操作における2つのAIエージェント「APIベース」と「GUIベース」の比較分析を発表した。それぞれに特有の強みがあり、状況に応じた使い分けや組み合わせが効果的であるとされる。
APIエージェントは、関数呼び出しによって直接ソフトウェアとやり取りするのが特徴で、安定性と効率性に優れる。一方、GUIエージェントは人間の操作を模倣し、画面上でメニューをクリックしたり、フォームに入力したりすることで操作を実現する。これにより、GUIエージェントはAPIが用意されていないレガシーシステムや、視覚的な確認が必要な作業に対応可能である。
研究では、信頼性、柔軟性、保守性、セキュリティなど9つの指標で両者を評価。APIはセキュリティや保守性で有利だが、GUIは柔軟性と透明性が高い。GUIエージェントはUIの変化にも対応しやすい一方で、視覚的変更に脆弱な一面もある。
また、Microsoftは両者を組み合わせた「ハイブリッドエージェント」の有用性を提唱。APIラッパーによるGUI操作の抽象化、オーケストレーションツールによる連携、自動化プラットフォームでの統合といった3つの手法を紹介している。こうした統合は、今後のマルチモーダルAIの進化によってさらに実用性を増すと見られている。
Microsoftは、スピードや信頼性が求められるバックエンド処理にはAPIエージェントを、API非対応のレガシーアプリやモバイルアプリにはGUIエージェントを推奨しており、最適な選択と設計が長期的な自動化成功の鍵であると結論づけている。
※本記事は、以下の記事をもとに翻訳・要約しています。
THE DECODER「Microsoft finds API agents are faster but GUI agents more flexible」
コメント
APIとGUI、それぞれのAIエージェントには明確な長所と適材適所があります。特に、既存システムや視覚確認を要する業務ではGUIエージェントが有効であり、セキュリティが重視される場面ではAPIが安心です。近年では両者を統合したハイブリッドアプローチも登場しており、柔軟で効果的な業務自動化が可能になりつつあります。これからのAI導入においては、技術的な性能だけでなく、業務環境に合わせたアーキテクチャ設計が求められるでしょう。