音声AIのVerbit、ライブ放送向け自動字幕に業界初の話者識別機能を導入

音声AIを活用した文字起こし・字幕プラットフォームのリーディングカンパニーであるVerbitは、同社の自動音声認識（ASR）製品『Captivate™』に、話者識別機能を新たに追加したことを発表しました。この機能はライブ放送時の自動生成字幕において、単に話者の切り替えを示す従来の記号（>>や—）を使うだけでなく、「誰が話しているか」を明示することで、字幕の質と視認性を飛躍的に向上させます。これにより、視聴者は誰が話しているのかが即座に分かるようになり、特にニュースや天気予報、スポーツ中継など、多数の話者が短時間で交代して話す場面でも理解しやすくなります。さらに、キャプションに頼る数百万人の視聴者にとって、よりアクセシブルな視聴体験を提供できます。

VerbitのゼネラルマネージャーであるDoug Karlovits氏は、「ライブの自動音声認識字幕を視聴する人たちも、人が提供する字幕と同じような明瞭さと文脈情報を享受できるべきです。今回の話者識別機能は最先端のモデルを用いており、従来の自動音声認識技術を遥かに超えた精度で話者を特定します」と述べています。

この話者識別の仕組みでは、放送前にVerbitのグローバル準備チームがキャスターやレポーターなど指定された話者の「声紋」（音声プロファイル）を取得します。この声紋がVerbitのAIに学習され、生放送中にリアルタイムで正確に話者を識別・表示できるようになります。また、この機能は各顧客の要望に応じてカスタマイズ可能で、字幕の書式や表示方法なども柔軟に対応できます。さらにこの機能は、放送局の分析能力向上にも貢献します。誰が何を発言したかを明確に記録・分析できるため、コンプライアンスや編集上の意思決定、今後のAI活用などにも役立つことが期待されます。今回の話者識別機能は、Fast Company誌の「次世代テクノロジー企業リスト（Next Big Things in Tech）」に選出されたVerbitのCaptivate ASRの最新機能として加えられました。

Verbitについて
Verbitは音声分野の業界をリードするグローバルなAI企業です。最新のAIテクノロジーを活用し、音声および映像コンテンツを高精度でアクセスしやすいテキストに変換しています。グローバルな専門家ネットワークと絶えず進化する独自のCaptivate™ ASRエンジンを通じて、あらゆるニーズに対応した高品質なサービスを提供しています。

TagsAIIsrael