エージェンティック動画インテリジェンス分野をリードする"TwelveLabs"がSeries Bで$100Mを調達

TwelveLabsは、NEAとNAVER Venturesが共同リードし、Amazon、Radical Ventures、Korea Investment Partners、Index Ventures、Quadrille Capital、Red Bull Venturesが参加したSeries Bで$100Mを調達しました。

エージェンティック動画インテリジェンス分野をリードするTwelveLabsは、人間と同じように動画を認識・理解・推論できる世界最高水準の動画インテリジェンスプラットフォームです。同社のアーキテクチャは知覚、知識、推論を単一システムへ統合し、時間の経過とともに価値が蓄積される仕組みを実現しています。

セマンティック検索、自動分析、マルチモーダル理解を通じて、TwelveLabsは開発者、企業、クリエイターが動画を単なる保存コストから戦略的資産へ転換できるよう支援しています。同社の技術はメディア、エンターテインメント、広告、政府、セキュリティ、自動車など幅広い業界で活用されています。

今回の投資は、TwelveLabsが動画理解モデルの提供から、知覚(Perception)、知識(Knowledge)、推論(Reasoning)を単一アーキテクチャへ統合したフルスタックのエージェンティック動画インテリジェンスシステムへと事業を拡大するタイミングで実施されました。これにより企業やクリエイターは、膨大な動画アーカイブを、生きた検索可能なシステムとして活用できるようになり、これまで分析、業務活用、収益化が困難だった映像資産を活用できるようになります。

TwelveLabsの成熟とプラットフォーム拡張は、動画インテリジェンス市場にとって重要な転換点で進められています。動画は世界中のデータの90%以上を占める一方、その大半は解析できず活用されていません。企業は動画理解技術の実証実験段階から本番環境への導入へ急速に移行しており、TwelveLabsはその中心的存在となっています。同社はメディア・エンターテインメント分野で大きな実績を築くとともに、世界各国の政府機関とも連携し、動画インテリジェンスをミッションクリティカルな業務へ適用しています。さらに広告、セキュリティ、スポーツ、自動車などの分野でも同社プラットフォームへの需要が拡大しています。

TwelveLabsの競争力は、カテゴリーを定義する研究成果と「真のマルチモーダル」という基本思想の上に成り立っています。それは言語モデルに動画を見せるものではなく、動画そのものを起点として生まれたモデルです。

昨年後半に公開されたMarengo 3.0は、世界最高性能の動画埋め込みモデルです。このモデルは映像内のあらゆる音声、言葉、動きを時間軸全体にわたって理解し、生の動画をAIや機械が理解・検索可能な意味情報へ変換します。

Marengoと連携する形で、同社が最近公開したPegasus 1.5は動画を構造化データへ変換します。シーン境界、エンティティ、時間的区間、意味的コンテキストなどを抽出し、システムが推論可能な形へ整理します。

Pegasusは動画理解のためのドメイン特化言語として機能し、マークアップ言語がブラウザにとって文書を解析可能にするのと同様に、生の動画をあらゆるインテリジェントシステムが解析可能な形へ変換します。

これら2つのモデルが、TwelveLabsのあらゆる製品、そして顧客やパートナーが構築するあらゆるサービスの知覚機能を支えています。両モデルはAmazon BedrockおよびTwelveLabs独自APIを通じて提供されています。

世界中のデータの大半は動画ですが、その中に存在する知識は依然として活用できていません。LLM時代のツールはテキスト向けに設計されており、動画へ適用すると数フレームしか解析せず、その間の情報を見落とし、問い合わせのたびにゼロから処理を開始します。

単純に処理能力を増やして解決する方法は機能しません。動画ライブラリ全体をモデルのコンテキストへ投入するには、現実には存在しないほどの計算能力と技術が必要であり、そのコストは企業が正当化できるものではありません。

一方で動画を静的なデータベースへ変換しても構造は得られますが、それを活用して行動できるインテリジェンスは得られません。

TwelveLabsの新しいエージェンティックアーキテクチャは、この両方を統合します。システムは取り込んだすべての動画について構造化された永続的な記憶を構築し、それら全体を横断して推論を実施します。インデックス化する動画や実施する分析が増えるほどシステムの能力は向上します。つまり、問い合わせごとにリセットされるツールではなく、処理した動画が増えるほど価値が蓄積されるインテリジェンスです。

これを実現するためには、システム全体を自社で構築する必要があります。TwelveLabsは知覚層、知識層、推論層に加え、それらを動画取り込み時点から統合するオーケストレーション層まで自社開発しています。その結果、単なる寄せ集めではない、一貫したインテリジェンスを実現しています。このエンドツーエンドの開発体制こそが、信頼性と持続性を備えたインフラを可能にしています。

すでに主要企業で本番運用されているモデルと、新たなユースケースを実現するエージェンティックインフラを基盤として、TwelveLabsはクリエイター、オペレーター、意思決定者が統合なしですぐ利用できるアプリケーション層へ事業を拡大しています。同社は今月初め、その第一歩として初のアプリケーション製品であるRodeoを発表しました。

TwelveLabsの成長においてパートナー企業は重要な役割を果たし続けています。特にAmazonとの関係は今回の投資だけに留まりません。Amazon Web Services(AWS)はTwelveLabsの優先クラウドプロバイダーであり、両社は複数年にわたる戦略的提携を締結しました。この提携には、AWS Trainiumチップ上でTwelveLabsの動画推論ワークロードを最適化する取り組みも含まれています。

さらに今後の新しいTwelveLabsモデルはAWSで最初に提供される予定であり、大規模動画インテリジェンス基盤を構築するという両社の共通ビジョンをさらに強化します。

TwelveLabsは急速な技術革新と市場拡大を継続するため、今回のSeries B資金を研究開発へ積極的に投資します。またSan FranciscoおよびSeoulへの投資を継続するとともに、New YorkとLondonにも新オフィスを開設し、グローバル顧客への対応を強化します。

「5年前、私たちは逆張りとも言える仮説を立てました。機械知能の基盤は言語ではなく、動き続ける現実世界の記録であるという考えです。言語は理解の結果として生まれるものです。本当に理解すべき対象は動画なのです。私たちはこの5年間、そのギャップを埋めるために知覚、知識、推論アーキテクチャを構築してきました。モデルはいずれコモディティ化します。しかし、それらを統合するインテリジェンス層はコモディティ化しません。今回の資金調達によって、TwelveLabsを基盤モデル企業から、世界を理解する必要があるすべてのユーザー、AIエージェント、機械のためのフルスタック動画認知システムへ進化させます。Video Superintelligenceへの道はここから始まります。」とTwelveLabsのCEO兼共同創業者であるJae Leeは述べています。