1. Home
  2. News
  3. テキストプロンプトから高品質のビデオを生成する"Genmo"がSeries Aで$28.4Mを調達
2024/10/28

Startup Portfolio

テキストプロンプトから高品質のビデオを生成する"Genmo"がSeries Aで$28.4Mを調達

Genmoは、NEAがリードし、The House Fund、 Gold House Venturesなどやエンジェル投資家が参加したSeries Aで$28.4Mを調達した。

ビデオ生成に焦点を当てたAIであるGenmoは、資金調達と当時にテキストプロンプトから高品質のビデオを生成する新しいオープンソースモデル「Mochi 1」の研究プレビューをリリースしたと発表した。同社は、RunwayのGen-3 Alpha、Luma AIのDream Machine、KuaishouのKling、MinimaxのHailuoなど、主要なクローズドソース/プロプライエタリな競合他社と同等またはそれを上回る性能を主張しています。

Apache 2.0ライセンスの下で利用可能なMochi 1は、ユーザーに最先端のビデオ生成機能への無料アクセスを提供します。一方、他のモデルの価格設定は限定的な無料枠から始まり、最高で月額$94.99(Hailuo Unlimitedティア)に達します。ユーザーはHugging Faceで完全な重みとモデルコードを無料でダウンロードできますが、ユーザー自身のマシンで動作させるには「少なくとも4台の」Nvidia H100 GPUが必要です。

モデルのリリースに加えて、Genmoはホストされたプレイグラウンドも提供し、ユーザーがMochi 1の機能を直接体験できるようにしています。480pモデルは今日から利用可能で、より高解像度のバージョンであるMochi 1 HDは今年後半にリリースされる予定です。

Mochi 1は、高忠実度の動きと強力なプロンプト遵守を含む、ビデオ生成の分野にいくつかの重要な進歩をもたらします。Genmoによると、Mochi 1は詳細なユーザー指示に従うことに優れており、生成されたビデオのキャラクター、設定、アクションを正確に制御することができます。GenmoはMochi 1を、オープンとクローズドのビデオ生成モデル間のギャップを狭めるソリューションとして位置づけています。

「私たちは生成ビデオの未来への道のりの1%にいます。本当の課題は、長く、高品質で、流動的なビデオを作ることです。私たちは動きの品質の改善に重点を置いています。ビデオに関しては、生成AIの次のフロンティアであり、これを実際の人々の手に届けることが非常に重要だと考えました。私たちは根本的に、この技術を民主化し、可能な限り多くの人々の手に届けることが本当に重要だと信じています。これが私たちがオープンソース化する理由の1つです」とGenmoの共同創業者兼CEOは述べています。

すでにGenmoは、内部テストにおいて、Mochi 1が他のほとんどのビデオAIモデル(RunwayやLunaなどのプロプライエタリな競合を含む)を、プロンプト遵守と動きの品質で上回っていると主張しています。

Mochi 1は、Genmoの新しい非対称拡散トランスフォーマー(AsymmDiT)アーキテクチャに基づいて構築されています。100億パラメータを持つこのモデルは、これまでにリリースされた最大のオープンソースビデオ生成モデルです。このアーキテクチャは視覚的推論に焦点を当てており、テキストと比較してビデオデータの処理に4倍のパラメータがあります。

Mochi 1は、ビデオデータを元のサイズの一部に圧縮するビデオVAE(変分オートエンコーダー)を活用し、エンドユーザーデバイスのメモリ要件を削減します。これにより、開発者コミュニティがHuggingFaceからモデルの重みをダウンロードしたり、APIを介して統合したりすることがより容易になります。

プレビューとして、Mochi 1にはまだいくつかの制限があります。現在のバージョンは480pの解像度のみをサポートしており、複雑な動きを含むエッジケースでは軽微な視覚的歪みが発生する可能性があります。さらに、このモデルは写実的なスタイルに優れていますが、アニメーションコンテンツには苦戦します。しかし、Genmoは今年後半にMochi 1 HDをリリースする予定で、これは720pの解像度をサポートし、さらに高い動きの忠実度を提供します。

Mochi 1のリリースは、様々な業界に可能性を開きます。研究者はビデオ生成技術の境界を押し広げることができ、開発者や製品チームはエンターテイメント、広告、教育分野で新しいアプリケーションを見出す可能性があります。Mochi 1は、ロボティクスや自律システムのAIモデルのトレーニング用の合成データを生成するためにも使用できます。

 

TagsAI

関連ニュース

Contact

AT PARTNERSにご相談ください