Generatived(Beta)|生成AIの最新ニュースとトレンドを提供
NVIDIA TensorRT-LLM が効率的なチャンク プレフィル機能を導入
Generatived
24/11/18 4:30
NVIDIA は、GPU の利用率を高め、開発者の導入プロセスを効率化する新しい機能を TensorRT-LLM に導入しました。チャンク プリフィルと呼ばれるこの機能は、従来のプリフィルおよびデコード推論フェーズで発生する計算上の課題に対処します。入力トークンを小さなチャンクに分割することで、システムは KV キャッシュをより効率的に処理し、複数のリクエストを同時に処理して、プリフィル フェーズ中のボトルネックを防ぐことができます。
チャンク化されたプリフィル アプローチは、GPU パフォーマンスを向上させるだけでなく、メモリ需要を増やすことなく、システムがより長いコンテキストとより高いレベルの同時実行を管理できるようにします。これは、メモリ消費と受信リクエストのコンテキスト長を切り離し、より長いコンテキスト長をより効率的に処理できるようにするため、特に有益です。
さらに、NVIDIA は、動的チャンク サイズ設定の実装により、エンジン作成プロセスの簡素化に大きく貢献しました。この機能は、GPU 使用率メトリックに基づいて最適なチャンク サイズを自動的に推奨するため、開発者が手動で最大入力長を指定する必要がなくなります。その結果、アクティベーション バッファ サイズは構成されたチャンク サイズによって決定されるようになり、実行時のメモリ使用がより効率的になります。
TensorRT-LLM にチャンク プリフィルが導入されたことで、システムのパフォーマンスと使用率が大幅に向上しました。プリフィル フェーズとデコード フェーズ間の並列化を促進し、クエリ完了時間を短縮することで、NVIDIA はユーザー エクスペリエンスを向上させています。この機能の活用に関心のある開発者は、NVIDIA のGitHubドキュメントで詳細情報を入手し、開始して、最新の AI 推論パフォーマンスの更新を把握することができます。
最新のニュース
竹頂、水のリサイクル強化のためAWSと合併
24/11/18 4:30
Zhuding International Limitedは、Automated Water Solutions Inc.(AWS)との逆合併契約の締結を発表し、AWSが合併後の事業体の実質的な支配権を握ることになった。
NTTSportict トップ賞を受賞したスポーツ・デジタルトランスフォーメーション
24/11/18 4:30
NTTSportict(大阪市都島区)は、Inter BEEの記念すべき60回目の開催に合わせて設けられた「INTER BEE AWARD 2024」に参加した。
エネットとMUFGにおける省エネ活動の拡大
24/11/18 4:30
エネット(東京都港区)と三菱UFJ銀行(東京都千代田区)は、カーボンニュートラル実現に向けた取り組みとして、「Enneteye」を用いた省エネ活動を全国約200か所の施設で開始する。
Copyright © 2024 Generatived - All right Reserved.
ニュース
AIと法律/制度/経済/社会
Generatived は、Generative AIに特化した情報やトレンドをお届けするサービスです。大きく変わりゆく世界の情報を全力でお届けします。
Generatived は、Generative AIに特化した情報やトレンドをお届けするサービスです。大きく変わりゆく世界の情報を全力でお届けします。
最新のニュース
竹頂、水のリサイクル強化のためAWSと合併
24/11/18 4:30
Zhuding International Limitedは、Automated Water Solutions Inc.(AWS)との逆合併契約の締結を発表し、AWSが合併後の事業体の実質的な支配権を握ることになった。
NTTSportict トップ賞を受賞したスポーツ・デジタルトランスフォーメーション
24/11/18 4:30
NTTSportict(大阪市都島区)は、Inter BEEの記念すべき60回目の開催に合わせて設けられた「INTER BEE AWARD 2024」に参加した。
エネットとMUFGにおける省エネ活動の拡大
24/11/18 4:30
エネット(東京都港区)と三菱UFJ銀行(東京都千代田区)は、カーボンニュートラル実現に向けた取り組みとして、「Enneteye」を用いた省エネ活動を全国約200か所の施設で開始する。