TikTokの親会社であるBytedanceは、新たなオープンソースAI「Agent TARS」を発表した。これは、Webコンテンツを視覚的に解析し、コマンドラインやファイルシステムとも連携しながら、複雑なタスクを自動化することを目的としたエージェント型フレームワークである。現時点では実験段階であり、対応OSはmacOSのみとなっている。

Agent TARSは、検索・閲覧・リンク遷移といったプロセスを自律的に計画・実行する能力を持ち、ユーザーとのやり取りはリアルタイムのイベントストリームを通じて行われる。これにより、進捗状況や中間結果が即座に表示され、必要に応じてユーザーが新たな指示を追加して介入することも可能である。

本エージェントはAnthropicの「Model Context Protocol(MCP)」を活用し、テキストエディタ、ターミナル、ファイルシステムとの連携も実現している。今後、Windows版も開発予定である。

公式サイトでは、Tesla株のテクニカル分析、ProductHuntの注目プロジェクトの概要、バグ報告、メキシコシティ旅行計画など、実例が多数紹介されている。ユーザーは作業セッションをHTML形式でローカル保存または外部サーバーにアップロードでき、共有用リンクも自動生成される。

使用にはGitHubからのインストール後、モデルや検索サービスのAPIキー設定が必要である。現状ではAnthropicのClaudeとの相性が最も良好とされており、OpenAIモデルのサポートは不安定である。なお、TARSにはUI操作を目的とした別製品「UI TARS Desktop」も存在するが、これは別物で互換性はない。

Agent TARSは現在技術プレビュー段階であり、本番利用は推奨されていない。開発チームはGitHubやDiscord、Xを通じたフィードバックや貢献を歓迎している。

※本記事は、以下の記事をもとに翻訳・要約しています。
THE DECODER「Bytedance launches Agent TARS, an open-source AI automation agent」

コメント

Agent TARSは、Webとシステムを横断して自動化タスクをこなす次世代型エージェントです。技術プレビュー段階ながら、視覚的なインターフェースとリアルタイム操作の柔軟性は非常に魅力的で、今後の業務効率化や情報処理のスタイルを変える可能性を感じさせます。特に、非エンジニアでもAIにタスクを委任できる点は、実用性の幅を広げてくれるはずです。将来的なWindows対応やOpenAIモデルとの安定統合にも期待したいところですね。