AIのMultiOn 計画と自己修復能力を搭載新世代のAIエージェント「Agent Q」

MultiOnは、次世代AIエージェント「Agent Q」を発表しました。このエージェントは、検索、自己批評、強化学習を統合することで、計画と自己修復能力を備えた高度な自律型ウェブエージェントを実現します。従来の大規模言語モデル（LLMs）が抱える課題を克服し、動的なリアルワールド環境での複雑な意思決定や多段階の推論を可能にする革新的な手法です。
LLMsの発展により自然言語処理は大きな進歩を遂げましたが、これらのモデルは静的なデータセットに基づいて訓練されているため、複雑な意思決定が求められるインタラクティブな環境では依然として限界があります。特に、多段階の推論やウェブナビゲーションのような動的タスクでは、エラーが累積しやすく、探索データが不足しているため、従来の方法では最適な結果が得られませんでした。

Agent Qは、以下の3つの主要コンポーネントを組み合わせることで、従来の限界を打破しました：
1. ガイド付きモンテカルロ木探索（MCTS）
探索と利用のバランスを取りながら、多様なアクションとウェブページを探索することで、自律的にデータを生成します。この技術は、広範囲のアクション空間をカバーし、最適な軌跡を収集します。
2. AI自己批評
各ステップでエージェントが自己批評を行い、意思決定プロセスを改善します。特に長期的なタスクでは、スパースなシグナルが学習を難しくするため、このステップごとのフィードバックが重要です。
3. 直接選好最適化（DPO）アルゴリズム
MCTSで生成されたデータから選好ペアを構築し、オフポリシー学習を通じてモデルを最適化します。これにより、サーチ中に探索されたサブオプティマルな枝も含めたデータセットから効果的に学習し、複雑な環境での成功率を向上させます。

Open Tableでの予約実験では、MultiOnのエージェントがLLaMa-3モデルのゼロショットパフォーマンスを18.6%から81.7%に向上させ、オンライン検索を加えることでさらに95.4%に達しました。この結果は、Agent Qの自律的なデータ収集とオンライン学習による効率性を示しており、実世界のタスクでの適用可能性の高さを証明しています。Agent Qは、AIエージェントの能力を飛躍的に進化させる新たなマイルストーンです。これにより、動的環境での課題解決能力が強化され、開発者や消費者向けに2025年後半に提供が開始される予定です。この技術は、よりインテリジェントで自律的なウェブエージェントの未来を切り開くものと期待されています。

MultiOnについて
MultiOnは、AIエージェント技術を革新するスタートアップで、自律型ウェブエージェントの開発に注力しています。検索技術、強化学習、自己批評を統合した「Agent Q」は、ウェブナビゲーションや複雑な意思決定を可能にし、リアルワールドでのAI活用を次のレベルへと押し上げています。

TagsAIUnited States