Startup Portfolio
DevOpsのdefinity、データパイプライン向けCI/CDテスト機能を発表:高速で安全なデプロイを実現
definityは、データエンジニアリングにおける課題を解決する新しいCI/CDテスト機能を発表しました。この機能は、Sparkパイプラインを含む複雑なデータパイプラインのコード変更を、効率的かつ包括的に検証できるよう設計されています。definityのプラットフォームは、リアルデータを活用して実際の運用規模でのテストを行うことで、開発サイクルを短縮し、データの信頼性を向上させます。
データエンジニアは、データパイプラインのコード変更を検証する際、多大な時間と労力を要していました。特にSparkパイプラインでは、非線形の変換や物理計画へのコード変換が原因で、次のような課題が発生していました:
• 静的コード分析や小規模なデータテストでは、スキーマやデータの系統、結合の問題などしか検出できず、データの分布や偏り、ランタイムの増加、非効率的なシャッフルといった問題を見逃す可能性があります。
• ステージング環境のセットアップは、手動作業が多くエラーが発生しやすい上に、リソース集約型です。
• 振る舞いのプロファイリングは多数のモニター設定を必要とし、インフラが整っていない場合は困難です。
• 根本原因の分析(RCA)は、コードや環境設定、データ系統を統合的に分析する仕組みがないと時間がかかります。
これらの問題は、適切な検証が行われないままデプロイが進む原因となり、データインシデントや性能低下、コスト増加を招いていました。
definityの新しいCI/CDテスト機能は、これらの課題に対応するために開発されました。主な特長は以下の通りです:
• リアルデータを使用したCIテスト:実際のデータ入力を使用して運用規模でのシナリオを再現し、包括的なテストを実現します。
• シームレスなステージング:コード変更や手動設定なしに、パイプラインの入力と出力を自動的にステージング環境に接続します。
• 即時のプロファイリング:データ品質、パイプラインの健全性、インフラ性能、リソース使用率などを自動的にプロファイル化し、変更前後のコードバージョンを比較します。
• インテリジェントな根本原因分析:統合された比較分析ツールを使用して、数クリックで変更の影響とその原因を特定できます。
この機能により、データチームは以下の主要なユースケースで効率性を大幅に向上させます:
• コード変更の検証:デプロイ前にコード変更をシームレスに検証し、運用インシデントの30~40%を予防します。
• プラットフォームのアップグレード:新しいSparkバージョンやプラットフォームのアップグレードを迅速化し、最大60%の時間短縮を実現します。
• プラットフォームの移行:オンプレミスからクラウドへの移行やクラウド間の移行後の整合性を確保し、従来数か月かかっていたテストを大幅に短縮します。
さらに、セットアップは30分以内で完了し、週初めにはコード変更の検証を開始できる手軽さも特長です。
Sparkなど大規模なデータ環境での検証方法が課題となる中、definityのCI/CDテスト機能は、コード変更や新しいプラットフォームバージョンをリアルデータで即時にテストできる革新技術です。この技術は、開発サイクルを短縮し、リスクを軽減することで、データパイプラインの構築と検証の在り方を根本的に変えます。
definityについて
definityは、データパイプラインの検証と管理を効率化する次世代のDataTech企業です。同社は、データの品質と信頼性を維持しながら、高速なデプロイとスケーラブルなソリューションを提供します。AIとフルスタックの観測技術を駆使し、データエンジニアリングの未来を形作るリーダーとして注目されています。