Apache NiFiプロジェクトに基づいて画期的なデータ・パイプライン・システムを構築する"Datavolo"がSeries Aで$21Mを調達

Datavoloは、General Catalystがリードし、Citi Ventures、Human Capital、MVP Ventures、Clouderaの元CEOが参加したSeries Aで$21Mを調達し、これまでの資金調達総額は$25M以上となった。

データをAIシステムに供給する方法を変革するDatavoloは、オープンソースのApache NiFiプロジェクトに基づいて、画期的な新しいデータ・パイプライン・システムを構築しました。Apache NiFiはソフトウェアシステム間のデータフローを自動化するために構築されたもので、DatavoloはGenerative AIワークロード用のマルチモーダルデータを処理するためにこのソフトウェアを再利用しています。

同社は、企業がすべてのデータを活用できるように支援したい考えており、データベースに格納されている従来の構造化データだけでなく、コンピュータ・システムに閉じ込められている情報の大部分を占める非構造化データも活用できるようにしたいと考えています。International Dataの2023年版レポートによると、組織が生成する情報の約90％は非構造化データのカテゴリーに分類されるが、既存のデータ・パイプライン・ソフトウェアはこの種のデータを扱うのに適していません。

組織がこの非構造化情報を利用する簡単な方法を手に入れるまでは、Generative AIの可能性を完全に実現することはできないだろう同社は説明します。

Apache NiFiプロジェクトは現在、世界中の何千もの組織で利用されており、特に政府、医療、金融、通信などの規制の厳しい業界で人気があります。しかし、これらの企業のほとんどは、主に構造化データのニーズを処理するためにソフトウェアを使用していますが、Apache NiFiは非構造化データにも同様に有用です。

Datavoloは、Generative AIのためのマルチモーダルデータパイプラインの基盤としてApache NiFiを活用することで、Apache NiFiを変革したいと考えています。同社のCEOは、Datavoloのソフトウェアの主な利点は、AIシステムに非構造化データを提供するために現在使用されている、単一用途のポイント・トゥ・ポイントのコードを、あらゆる種類のデータソースに適用可能な、高速で柔軟かつ再利用可能なパイプラインに置き換えることができるため、企業がより強力で有能なAIモデルを構築するために、あらゆるソースからのあらゆるデータを活用するのを支援することができると説明します。

同氏は、非構造化データ用の適切なデータ・パイプライン・ソリューションがないため、アプリケーションごとにカスタム・コードを書かなければならず、業界の足かせになってると説明します。既存のデータパイプラインは、確立された構造とスキーマを持つデータ用に構築された行指向の抽象化に基づいています。

マルチモーダルデータの世界では、データセットは非常に大きくなる傾向があり、行として構造化されていません。さらに、従来のデータ・プラットフォームは、ポイント・ツー・ポイントのELTアーキテクチャを使用しており、LLMアプリケーションに関連するターゲット・システムではうまく機能しません。

既存のデータパイプラインにも大きな制限があり、例えば、テキストの塊がエンベッディングに変換され、ベクターデータベースや検索インデックスに保存されると、データウェアハウスにある従来の構造化データで可能なこととは異なり、そのような情報をさらに変換したりエンリッチしたりすることは不可能です。

さらに、企業が書かざるを得ないカスタム・コードは、保守やセキュリティ、運用が難しいこともあります。企業ユーザーは、このような重要なリスクを移転できる確立されたプラットフォームを採用することを強く望んでいます。

Datavoloのデータパイプラインモデルが他と違うのは、すぐに使えるプロセッサーを活用し、構造化データと非構造化データの両方を抽出、クリーニング、変換、エンリッチ、公開できる点です。最も重要なのは、継続的なイベント・ドリブン・インジェスト用に設計されていることで、大量データのバーストにも対応できるよう、オンデマンドでスケールアップできます。

同社のプラットフォームは、オーディオやビデオの画像ストリーム、センサーによってキャプチャされた生信号、深くネストされた階層構造のJSONやXML、テキストベースのログエントリ、行やレコードの高度に構造化されたデータベースなど、さまざまなデータを扱うことができます。スタックが進化し続け、未解決の問題が解決されるにつれ、柔軟性がデータエンジニアにとって重要な要素になることは分かっています。そのため、Datavoloのデータパイプラインとオーケストレーション機能は、API、ソース、ターゲット、モデルを簡単に交換できる柔軟性を提供するよう設計されています。

今後企業が基盤言語モデルとの統合から最大の価値を引き出すためには、非構造化データが不可欠になります。原則として、LLMは独自のデータセットまたは一般に公開されているデータセットで学習されるが、企業は、ほとんどが非構造化データである自社のビジネスデータでLLMを微調整することで、その有用性を大幅に高めることができます。

「最も成功するAIアプリケーションは、AIモデルの上に直接構築されるのではなく、AIシステムの上に構築されると我々は強く信じている。最も有用なAIシステムには、LLMの生成能力を補完し、ビジネス価値を高めるために、企業のデータシステムからコンテキストデータを取得する機能が含まれていなければなりません。」と同氏は説明します。

Datavoloの新サービスは、ついに企業がデータから最大限の価値を引き出し、AIを採用する企業にとって前例のないイノベーションを実現する機会を提供します。「Datavoloは、AIチームをサポートするデータエンジニアのためのツールです。Datavoloは、データチームとAIチームの間の組織的ギャップを埋めるものであり、安全でシンプルかつスケーラブルなマルチモーダルデータパイプラインを構築するためのフレームワーク、機能セット、再現可能なパターンカタログを提供します。」と同氏は付け加えます。

Constellation Research社のアナリストは、Datavoloの最も興味深い点は、ClouderaのDataFlowも支えるApache NiFiプラットフォームをどのように進化させるかだろうと説明します。DatavoloのCEOは以前ClouderaでFlowとStreaming製品のVise Presidentとして働いており、Clouderaがこれらの製品よりも中核のCloudera Data Platformを優先させるという決定を下したことから、Datavoloを立ち上げる気になったのかもしれないと説明します。

同氏は「Cloudera Data Platformのような構造化・半構造化データ用に構築されたシステムは、NiFiがかなり長い間存在していたにもかかわらず、ビッグデータ市場を支配し続けています。Datavoloがマルチモーダルデータを含む生成AIのユースケースにどのようにNiFiを適用するかは興味深い。もしDatavoloが最先端を行き、素晴らしい新成長市場を開拓することになれば、Clouderaや他の多くのベンダーも同じ市場機会を狙うだろう。要するに、軽快なスタートアップがイノベーションを起こし、既存企業を破壊しようとするのを見るという、長年のハイテク・パターンのもう一つの例である。」と述べています。

Datavoloは、新たに調達した資金を使い、Apache NiFiをクラウドネイティブなマネージドサービスに変貌させ、AI用の新しいマルチモーダルデータパイプラインの迅速な開発を可能にする特定の機能を備えることに注力すると述べています。この点で同社はすでに大きな進歩を遂げており、現在、非構造化データセットを利用して既存の機能を強化できるGenerative AIアプリケーションである検索拡張世代アプリケーションに同社のデータアーキテクチャを活用したい顧客向けにプライベート・ベータ・プログラムを開始しています。

同社によると、理想的な顧客は、何百もの異なるソースからの非構造化データの継続的な取得、変換、ロードを、すぐに自動化したいと考えている企業だといいます。