1. Home
  2. News
  3. 統合AIデータパイプライン:Vast Data、規模とトラフィックの課題に取り組む
2024/08/06

Startup Portfolio

統合AIデータパイプライン:Vast Data、規模とトラフィックの課題に取り組む

人工知能の時代がデータ管理に革命をもたらしている中、Vast Dataはその中心にあります。同社のVast Data Platformは、AIモデルのトレーニングに使用される非構造化データを保存します。Vast Dataは最近、Nvidia Corp.と提携し、AIデータエンジンをサポートする大規模なクラウドアーキテクチャを構築しました。共同創業者のJeff Denworth氏によると、大量のデータをサポートすることはこれまで以上に重要です。

Denworth氏は、「Vastは非常に強力なAIワークロードに取り組む市場の変革を具現化しています。新たに登場する2つの波があります。1つはテキストベースからマルチモーダルモデルへの移行で、これにより顧客が扱うデータの量が急増しています。もう1つは、超知能や人工汎用知能システムを構築する組織と協力しており、これらの組織はインフラのエクサバイトを処理しています」と述べています。

Denworth氏は、Supercloud 7: Get Ready for the Next Data Platformイベントの中で、theCUBEのDave Vellante氏、John Furrier氏、Rob Strechay氏とインタビューに応じ、AIのための現代のデータ管理とVast Dataがどのようにデータアーキテクチャを変革しているかを語りました。


AIのための統合データパイプラインの構築
Vast Dataの目標は、データストレージと計算インフラを簡素化し、ユーザーがAIモデルのためにさまざまな非構造化データタイプにアクセスできるようにすることです。Denworth氏は、「私たちは世界で最もスケーラブルなファイルシステムと、世界初のエクサバイトスケールのトランザクショナルデータウェアハウスを統合し、AIパイプライン全体のソリューションとしてVast Data Platformを構築しました。これには、データ準備、データトレーニング、推論、データロギング、およびデータ収集が含まれます」と述べています。

過去数年間でCoreWeaveやAWS LambdaのようなAIクラウドが登場しましたが、データの発生源はそこではありません。Vast Dataは、複数のクラウドやデータセンターからデータを処理する統合データパイプラインを作成することに注力しています。

Denworth氏は、「私たちはVast Data Spaceと呼ばれる技術を用いて、複数のクラウドをフェデレーションする能力を構築しました。これにより、独立した一連のクラウドプラットフォーム上にあるファイルやレコードを一つの統合パイプラインで流れることが可能になります」と述べています。


Vast Data Platformによるスケールの課題の解決
データアーキテクチャは常に独自の課題を提示してきました。2003年のGoogle File Systemは、コモディティノードで非常に大規模なクラスターを構築することでスケールの課題を解決しましたが、これらのクラスターをスケールアップするのは困難でした。近年、Vast Dataはスケールとイーストウエストトラフィックの問題に取り組んできました。Denworth氏は、「私たちはクラスターを分割し、システムのソフトウェアをコンテナで実行するステートレスなコアのフェデレーションを構築しました。そして、すべてのコアが一つのSSDボリュームを見渡せるようにしています。これにより、コア間で調整することなく、すべてのコアからこのボリュームに書き込みや読み取りができるトランザクショナルデータ構造を構築しました。この結果、ハイパースケールクラスターでイーストウエストトラフィックを基本的に排除する能力が得られました」と述べています。
Vast Data Platformは、あらゆるスケールレベルでデータをネイティブにストリーミングすることを可能にします。同プラットフォームは、データレイクおよびデータレイクハウスインフラでのデータの可用性と可視性のギャップを埋めています。

Denworth氏は、「従来のデータサイエンスパイプラインのIOボトルネックを解決することで、私たちは世界に2倍から20倍のパイプライン性能改善が可能であることを示しています。データサイエンス業界の大部分はこの問題を解決することに興味がないと見ています。なぜなら、みんなコアごとに販売しているからです。私たちはこれをOptimizationに関する利益相反として一切考慮しませんでした」と述べています。

Denworth氏によると、Vast Dataへの移行は通常、顧客がパイプラインを再検討する必要がないため、非破壊的に行われます。同社はむしろ、インフラを簡素化し、コスト効果を高めることに力を入れています。今後、Vast DataはエージェンティックAIの関与も視野に入れています。「私たちが見るところ、世界のデータをインデックスする巨大な機会が見えています。Vastが深くルートを持つ非構造化データのシステムを考えると、そのデータを大規模言語モデルがインターフェースできるコーパスに構築することは非常に楽しみなことです」と述べています。

 

TagsAIUnited States

関連ニュース

Contact

AT PARTNERSにご相談ください