Generatived(Beta)|生成AIの最新ニュースとトレンドを提供
NVIDIA BigVGAN v2 が高品質オーディオ合成を強化
Generatived
24/9/6 4:30
NVIDIA は、驚異的な速度と堅牢性でオーディオ波形を合成することに特化したモデルである BigVGAN の開発により、オーディオ生成 AI の分野で大きな進歩を遂げました。NVIDIA の応用ディープラーニング研究チームと NeMo チームの共同作業であるこのモデルは、音声、環境音、音楽など、さまざまなオーディオ タイプを処理できるように設計されています。BigVGAN の最新版である BigVGAN v2 は、合成速度とオーディオ品質の両方が向上し、実際の録音とほとんど区別がつかないオーディオを生成することを目指しています。
BigVGAN v2 モデルは、幅広いサウンドで高品質のオーディオを提供できることが特長です。複数の言語、環境音、楽器を含む膨大なデータセットでトレーニングされているため、1 つのモデルから詳細な音波を生成できます。このモデルのアーキテクチャには、高周波および周期的な音波の作成に長けた、アンチエイリアス マルチ周期性合成 (AMP) という新しいモジュールが搭載されています。このイノベーションにより、BigVGAN v2 は、従来のボコーディング方式でよく見られた欠点である高周波音の細かいディテールを生成するという課題に対処できるようになりました。
オーディオ合成技術の飛躍的進歩として、BigVGAN v2 はサンプリング レート容量を 44 kHz まで拡張し、人間の聴覚の全スペクトルをカバーします。 この強化により、モデルはドラムの低音からシンバルの高音まで、幅広い音を正確に再現できます。 さらに、BigVGAN v2 は最適化された CUDA カーネルを組み込むことで合成速度を大幅に加速し、前身の最大 3 倍の推論速度を実現しました。
NVIDIA のオーディオ生成 AI の進歩への取り組みは、ニューラル ボコーダー技術とオーディオ品質の新しいベンチマークとなる BigVGAN v2 のリリースに表れています。 このモデルの最先端のパフォーマンスと高速合成機能は、仮想現実からデジタル コンテンツの作成まで、幅広いアプリケーションにメリットをもたらします。 BigVGAN v2 により、NVIDIA は高品質オーディオ生成のアクセシビリティと効率性をさらに向上させ、聴覚領域での可能性の限界を押し広げていきます。
最新のニュース
AI Picasso画像生成AIサービス開始
24/11/8 4:30
AI Picasso(東京都港区)は、企業向けの画像生成AIサービスを開始し、新コーポレートサイトを2024年11月07日に開設した。
Copyright © 2024 Generatived - All right Reserved.
ニュース
AIと法律/制度/経済/社会
Generatived は、Generative AIに特化した情報やトレンドをお届けするサービスです。大きく変わりゆく世界の情報を全力でお届けします。
Generatived は、Generative AIに特化した情報やトレンドをお届けするサービスです。大きく変わりゆく世界の情報を全力でお届けします。
最新のニュース
AI Picasso画像生成AIサービス開始
24/11/8 4:30
AI Picasso(東京都港区)は、企業向けの画像生成AIサービスを開始し、新コーポレートサイトを2024年11月07日に開設した。