Generatived(Beta)|生成AIの最新ニュースとトレンドを提供
.webp)
AI推論を強化するNVIDIA Dynamoを発表
Generatived
25/3/19 4:30
NVIDIA は、GTC 2025 で、大規模な分散環境での生成 AI および推論モデルの展開を強化するために設計された新しいオープンソース推論サービス フレームワークである NVIDIA Dynamo を発表しました。このフレームワークにより、処理されるリクエストの数が大幅に増加し、NVIDIA Blackwell で DeepSeek-R1 モデルを使用すると、最大 30 倍の改善が達成されます。NVIDIA Dynamo は、PyTorch や NVIDIA TensorRT-LLM などのさまざまなオープンソース ツールと統合され、開発者や研究者による AI アプリケーションの高速化を促進します。
このフレームワークは、GPU のパフォーマンスと効率を最適化することを目的としたいくつかのイノベーションを導入しています。これには、プリフィルとデコード推論段階の分離、変化する需要を満たすための動的な GPU スケジューリング、KV キャッシュの再計算の必要性を減らすインテリジェントなリクエスト ルーティングが含まれます。さらに、NVIDIA Dynamo は GPU 間のデータ転送速度を向上させ、KV キャッシュのオフロードを可能にしてシステム スループットを向上させます。現在GitHubで入手可能な NVIDIA Dynamo は、高度なサポートと安定性を求める組織向けに、NVIDIA AI Enterprise を通じてエンタープライズ グレードの機能も提供します。
NVIDIA Dynamo のアーキテクチャは、単一の GPU セットアップから数千の GPU を備えたシステムまで、生成 AI モデルのコスト効率の高いスケーリングを可能にするように設計されています。フレームワークの主要コンポーネントは連携してリソースを効果的に管理し、分散環境での高スループットと低レーテンシーを保証します。NVIDIA Dynamo は、さまざまな推論段階を分離し、GPU リソースを動的に割り当てることで、複雑な AI モデルを本番環境に展開する際の課題に対処します。
NVIDIA Dynamo のリリースは、NVIDIA Triton 推論サーバーの伝統を基盤とする AI 推論サービスにおける大きな前進です。モジュラー設計と分散推論機能を備えた NVIDIA Dynamo は、マルチノード展開におけるスケーラビリティとパフォーマンスの強化を提供し、次世代の AI アプリケーションをサポートする態勢が整っています。開発者と AI 研究者は、 GitHubの NVIDIA Dynamo コミュニティに参加し、継続的な開発に貢献することをお勧めします。
最新のニュース
Gemini Code Assist が無料の AI コーディング ツールをリリース
25/3/19 4:30
Gemini Code Assist は最近、個人開発者向けの無料 AI コーディング アシスタントを発表し、かつては大企業に限定されていたテクノロジーへのアクセスを拡大しました。
Impact Tech が AI 主導の成長のために Lovisa と提携
25/3/19 4:30
Impact Analytics™ は、オーストラリアのファッションジュエリーブランド Lovisa との戦略的提携を発表しました。
Copyright © 2024 Generatived - All right Reserved.
ニュース
Generatived は、Generative AIに特化した情報やトレンドをお届けするサービスです。大きく変わりゆく世界の情報を全力でお届けします。
最新のニュース
Gemini Code Assist が無料の AI コーディング ツールをリリース
25/3/19 4:30
Gemini Code Assist は最近、個人開発者向けの無料 AI コーディング アシスタントを発表し、かつては大企業に限定されていたテクノロジーへのアクセスを拡大しました。
Impact Tech が AI 主導の成長のために Lovisa と提携
25/3/19 4:30
Impact Analytics™ は、オーストラリアのファッションジュエリーブランド Lovisa との戦略的提携を発表しました。