AI VoiceのHume AI、感情調整可能な音声生成モデル「Octave」を発表

ニューヨークのスタートアップHume AIは、新たなテキスト読み上げ（TTS）モデル「Octave」を発表しました。Octaveは、感情を調整できるAI音声を生成する革新的な技術であり、オーディオブック、ゲームのキャラクターボイス、映画・テレビのナレーションなど、幅広いコンテンツに活用できます。

Octaveは、従来のTTSシステムとは異なり、大規模言語モデル（LLM）を活用し、テキストだけでなく音声や感情データを学習。これにより、文脈を理解し、適切な抑揚やリズムを付けた自然な音声を生成できます。Hume AIの共同創業者兼CEOであるAlan Cowen氏は、「私たちは、文脈を理解し、適切な感情やリズム、強調を再現できる初のLLMベースのTTSモデルを開発しました。これにより、AI音声がこれまで以上に人間らしく聞こえるようになります」と述べています。さらに、Octaveはキャラクターの特性を自動的に解釈し、スクリプトの意図に応じて声の抑揚を調整する機能を搭載。例えば、皮肉なセリフは皮肉っぽく、緊迫したシーンでは緊張感のある口調、ささやき声は控えめなトーンで再生できます。また、「もっと楽しそうに」「悲しげに」「怒りを込めて」など、簡単なテキスト指示で感情の微調整が可能です。Cowen氏は、「中世の皮肉屋の農民のようなキャラクターと指示すれば、Octaveは即座にその声を作り出し、ユーザーの指示に応じて感情表現を調整できます」と説明しています。

Octaveは、文章単位ではなく、段落全体の文脈を考慮して音声を生成するため、より自然な発話が可能です。現在、英語とスペイン語に対応しており、今後さらなる言語拡張が予定されています。また、Hume AIの「Projects」ページやAPIを通じて利用可能で、開発者は最大50リクエスト/分、5,000文字/リクエストの制限内で利用できます。出力形式はMP3、WAV、PCMに対応。Hume AIはリアルタイム対話に適したEVIシリーズの音声モデルも提供しており、これらは今後も開発が継続されます。

Hume AIはサブスクリプションベースの価格体系を採用し、競合のElevenLabsより約半額の価格設定を実現。さらに、180人のテストユーザーを対象としたブラインド比較試験では、音質（71.6%）、自然さ（51.7%）、指定した音声スタイルの再現度（57.7%）のすべてにおいてOctaveがElevenLabsを上回る結果を示しました。

価格プランの概要：
• 無料プラン（$0/月）: 10,000文字（約10分）
• Starter（$3/月）: 30,000文字（約30分）
• Creator（$10/月）: 100,000文字（約100分）、追加文字は$0.20/1,000
• Pro（$50/月）: 500,000文字（約500分）、追加文字は$0.15/1,000
• Scale（$150/月）: 2,000,000文字（約2,000分）、追加文字は$0.13/1,000
• Business（$900/月）: 10,000,000文字（約10,000分）、追加文字は$0.10/1,000
• Enterprise（カスタム）: 無制限の利用、カスタム契約、セキュリティ保証

また、「Expressive TTS Arena」と呼ばれる公開ベンチマークを導入し、長文コンテンツにおけるAI音声の表現力を評価するテスト環境を構築しています。

Hume AIは、児童の声のリアルな再現や特定の個人の模倣を禁止するガイドラインを設けており、利用可能なコンテンツの範囲を適切に管理。また、5秒間の音声データから声を再現できる「Voice Cloning」機能を開発中であり、公開前に倫理的な制約を強化する予定です。Cowen氏は、「人間の感情を理解し、自然な発話が可能なAI音声を提供することで、クリエイターがより自由に表現できる世界を目指します」と述べています。

TagsAIUnited States