AI開発プラットフォームのGalileo、AIエージェントの性能評価を強化する「Agentic Evaluations」を発表

サンフランシスコを拠点とするGalileoは、AIエージェントの性能を評価するための新しいソリューション「Agentic Evaluations」を発表しました。このツールは、大規模言語モデル（LLMs）によって駆動されるAIエージェントの性能と信頼性を、開発プロセスのあらゆる段階で最適化できるよう支援します。これにより、現実の運用環境に適したAIソリューションの構築、展開、スケールが可能になります。

AIエージェントは、LLMsを活用した計画と意思決定により、複雑な多段階のワークフローを自律的に実行するシステムです。カスタマーサービス、教育、通信など幅広い分野で採用が進んでおり、企業のROI向上に大きく寄与しています。ある調査によると、約50%の企業がAIエージェントを採用し、さらに33%が導入を検討しています。Twilio、ServiceTitan、Cheggといった企業は、AIエージェントを利用してダイナミックな多段階のインタラクションを構築し、具体的な成果を上げています。しかし、AIエージェントの開発と評価には、以下のような課題があります。
• 非決定的なプロセス：LLMプランナーは複数のアクションシーケンスを選択可能で、従来の評価フレームワークでは対応が難しい。
• 増加する失敗ポイント：複雑なワークフローには、多段階かつ並列プロセスの評価が必要。
• コスト管理：複数のLLMを利用するエージェントでは、性能とコストのバランスが重要。

GalileoのAgentic Evaluationsは、システム全体とステップごとの評価を提供するエンドツーエンドのフレームワークです。これにより、開発者は信頼性が高くパフォーマンスに優れたAIエージェントを構築できます。

主要な機能として以下が含まれます。
• エージェントワークフローの完全な可視化：入力から最終アクションまでの多段階プロセスをトレースし、簡潔なビジュアライゼーションで効率的なデバッグを支援。
• エージェント固有の評価指標：研究に基づく独自のメトリクスで、各ステップや全体のタスク完了度を測定。
• コストと遅延の詳細追跡：セッション全体のコストやエラーを追跡し、コスト効率を最適化。
• シームレスな統合：LangGraphやCrewAIといったAIフレームワークをサポート。
• プロアクティブな洞察：失敗したツールコールや指示の不一致を特定するアラートやダッシュボードを提供。

すでに複数の企業がAgentic Evaluationsを活用して成果を上げています。CiscoのOutshift部門のSVP/GPであるVijoy Pandey氏は、「適切な測定なしでAIエージェントを運用することはリスクが高い」と述べ、Galileoのツールが開発者に信頼性の高いAIエージェントの構築を支援する重要な役割を果たしていると評価しています。また、Emaの共同創業者兼CEOであるSurojit Chatterjee氏は、「エージェントの可視性と評価メトリクスの統合は、開発プロセスを大幅に効率化します」とコメントしています。

Galileoについて
Galileoは、企業向けの生成AI評価と監視プラットフォームを提供するリーダー企業です。同社のプラットフォームは、研究に基づいた評価指標を活用し、AI開発の構築、反復、監視、保護を支援します。Fortune 500企業からスタートアップまで幅広いAIチームがGalileoを利用してAI開発を加速しています。

TagsAIUnited States