Generatived（Beta）｜生成AIの最新ニュースとトレンドを提供

NVIDIA DGX クラウドベンチマークで AI パフォーマンスを評価

Generatived

25/3/19 4:30

NVIDIA は、さまざまなプラットフォームでの AI ワークロードのパフォーマンスを評価するために設計された包括的なツールスイートである DGX Cloud Benchmarking を導入しました。この新しいベンチマークアプローチでは、GPU などのハードウェアだけでなく、インフラストラクチャソフトウェア、クラウドプラットフォーム、アプリケーション構成の影響も考慮されます。その目的は、AI システムの複雑さを十分に把握できない可能性がある従来の指標を超えて、実際の AI ワークロードのパフォーマンスと総所有コストをより正確に測定することです。

同社のベンチマークスイートは、NVIDIA が自社のハードウェアとインフラストラクチャを評価してきた経験を活かし、プラットフォームのパフォーマンスを評価するための標準化された方法を提供することを目的としています。GPU の数、データの精度、ソフトウェアフレームワークなどの要素を調べることで、組織は AI 運用のスケーリングに伴うトレードオフをよりよく理解できます。たとえば、トレーニングクラスターの GPU の数を増やすと、トレーニング時間が大幅に短縮されることが示されていますが、コストがそれに応じて上昇する可能性はありません。

NVIDIA の DGX Cloud Benchmarking は、AI モデルのトレーニングにおける精度の重要性も強調しています。 BF16 ではなく FP8 精度を使用すると、スループットとコスト効率が向上します。ただし、FP8 のダイナミックレンジが狭いため、数値の安定性を維持するためには特殊な手法が必要です。ベンチマークツールは、組織が FP8 精度でパフォーマンスを最大化できるように、ベストプラクティスとベースライン結果を提供します。

さらに、AI フレームワークの選択は、トレーニングの速度とコストに大きな影響を与える可能性があります。NVIDIA のベンチマークでは、継続的に最適化されたフレームワークを選択すると、パフォーマンスが大幅に向上する可能性があることが実証されています。同社は、チームがフレームワーク構成を最適化し、最新のソフトウェア最適化を最大限に活用できるようにするための専門家のガイダンスを提供しています。

NVIDIA の DGX Cloud Benchmarking は、新しいモデル、ハードウェアプラットフォーム、ソフトウェアの機能強化を反映するようにツールを定期的に更新することで、AI 業界の急速な進歩をサポートする態勢を整えています。この継続的な進化は、テクノロジが猛烈なペースで進歩する分野で不可欠な、最新かつ関連性の高いパフォーマンスの洞察をユーザーに提供することを目的としています。

ソース：NVIDIA Developer Blog