Generatived（Beta）｜生成AIの最新ニュースとトレンドを提供

NVIDIA BigVGAN v2 が高品質オーディオ合成を強化

Generatived

24/9/6 4:30

NVIDIA は、驚異的な速度と堅牢性でオーディオ波形を合成することに特化したモデルである BigVGAN の開発により、オーディオ生成 AI の分野で大きな進歩を遂げました。NVIDIA の応用ディープラーニング研究チームと NeMo チームの共同作業であるこのモデルは、音声、環境音、音楽など、さまざまなオーディオタイプを処理できるように設計されています。BigVGAN の最新版である BigVGAN v2 は、合成速度とオーディオ品質の両方が向上し、実際の録音とほとんど区別がつかないオーディオを生成することを目指しています。

BigVGAN v2 モデルは、幅広いサウンドで高品質のオーディオを提供できることが特長です。複数の言語、環境音、楽器を含む膨大なデータセットでトレーニングされているため、1 つのモデルから詳細な音波を生成できます。このモデルのアーキテクチャには、高周波および周期的な音波の作成に長けた、アンチエイリアスマルチ周期性合成 (AMP) という新しいモジュールが搭載されています。このイノベーションにより、BigVGAN v2 は、従来のボコーディング方式でよく見られた欠点である高周波音の細かいディテールを生成するという課題に対処できるようになりました。

オーディオ合成技術の飛躍的進歩として、BigVGAN v2 はサンプリングレート容量を 44 kHz まで拡張し、人間の聴覚の全スペクトルをカバーします。この強化により、モデルはドラムの低音からシンバルの高音まで、幅広い音を正確に再現できます。さらに、BigVGAN v2 は最適化された CUDA カーネルを組み込むことで合成速度を大幅に加速し、前身の最大 3 倍の推論速度を実現しました。

NVIDIA のオーディオ生成 AI の進歩への取り組みは、ニューラルボコーダー技術とオーディオ品質の新しいベンチマークとなる BigVGAN v2 のリリースに表れています。このモデルの最先端のパフォーマンスと高速合成機能は、仮想現実からデジタルコンテンツの作成まで、幅広いアプリケーションにメリットをもたらします。 BigVGAN v2 により、NVIDIA は高品質オーディオ生成のアクセシビリティと効率性をさらに向上させ、聴覚領域での可能性の限界を押し広げていきます。

ソース：NVIDIA Developer Blog