AI Modelの圧縮・最適化Pruna AI、AIモデル最適化フレームワークをオープンソース化

欧州拠点のスタートアップPruna AIは、AIモデルの圧縮アルゴリズムを開発する中で培った最適化フレームワークを、今週木曜日にオープンソース化すると発表しました。Pruna AIはキャッシングやプルーニング、量子化、ディスティレーションなど複数の効率化手法をAIモデルに適用するフレームワークを提供しており、圧縮後のモデルを標準化して保存・読み込み、圧縮手法の組み合わせを手軽に適用、さらに圧縮後の品質やパフォーマンス向上度合いを評価できるのが特徴です。

Pruna AIの共同創業者兼CTOであるJohn Rachwan氏によると、多くの大手AI研究機関はすでに複数の圧縮手法を採用しているものの、それらを一元管理し、直感的に活用できるプラットフォームは限られていました。例えばOpenAIは大型モデルを高速化する際にディスティレーションを使用しているとされ、GPT-4 Turboなどの実装にもこの手法が活かされている可能性があります。またBlack Forest LabsのFlux.1-schnellモデルも元のFlux.1モデルをディスティレーションで圧縮したバージョンです。

ディスティレーションとは、大規模な教師モデル（Teacher model）の推論結果を参考に、類似の振る舞いを模倣する生徒モデル（Student model）を学習させる手法です。圧縮によりモデルを小型化しても、性能劣化を小幅に抑えつつ高速化やリソース削減を狙えることから、多くのAI企業が導入を検討しています。しかし、Pruna AIによれば市販やオープンソースのツールは特定の圧縮手法に特化していることが多く、複数の手法を組み合わせられるフレームワークはまだ一般的ではありません。

Pruna AIはLLMや拡散モデル（diffusionモデル）、音声認識、画像認識など幅広いモデルを対象としながら、現在は特に画像・動画生成分野に注力しています。同社のユーザーには、ScenarioやPhotoRoomなどがすでに含まれており、今回のオープンソースフレームワークのほか、エンタープライズ向けには高度な最適化機能や自動的に圧縮手順を実行するエージェントなどを備えた製品版を提供する計画です。このエージェントは使用者が「性能をどれだけ維持しつつ、どの程度高速化したいか」を指定すれば、自動的に最適な圧縮組み合わせを見つけ出してくれるとのことです。

Pruna AIは使用したリソースに応じて課金する仕組みで、チーフエンジニアであるRachwan氏は「AWSなどでGPUを借りるイメージに近い」と説明しています。すでにLlamaモデルを8倍に圧縮した事例も報告されており、精度を大きく損なわないまま推論を効率化しているため、導入コスト以上に得られる効果が期待されています。同社は数カ月前に種（シード）ラウンドとして650万ドルを調達済みで、EQT Ventures、Daphni、Motier Ventures、Kima Venturesらが出資に参加しています。

Pruna AIについて
Pruna AIは、AIモデルの圧縮・最適化を支援するプラットフォームを開発するAIスタートアップです。複数の圧縮手法（ディスティレーションや量子化など）を統合的に扱えるフレームワークを特長とし、LLMや拡散モデル、音声・画像認識など幅広い領域のモデルを効率化することで推論の高速化やリソース削減を目指しています。シードラウンドで650万ドルの資金を調達し、企業やオープンソースコミュニティに向けて大規模言語モデルなどの最適化ソリューションを提供中です。

TagsAIUnited States