NVIDIA Memperkenalkan Dynamo untuk Mendukung Inferensi AI 2/3457

Generatif (Beta) |. Memberikan berita dan tren terkini dalam AI generatif

NVIDIA Memperkenalkan Dynamo untuk Mendukung Inferensi AI

Generatived

19/3/25, 04.30

Di GTC 2025, NVIDIA meluncurkan NVIDIA Dynamo, kerangka kerja penyajian inferensi sumber terbuka baru yang dirancang untuk mendukung penerapan AI generatif dan model inferensi dalam lingkungan terdistribusi berskala besar. Kerangka kerja ini secara drastis meningkatkan jumlah permintaan yang diproses, mencapai peningkatan hingga 30x menggunakan model DeepSeek-R1 pada NVIDIA Blackwell. NVIDIA Dynamo terintegrasi dengan berbagai alat sumber terbuka, termasuk PyTorch dan NVIDIA TensorRT-LLM, untuk membantu pengembang dan peneliti mempercepat aplikasi AI.

Kerangka kerja ini memperkenalkan beberapa inovasi yang ditujukan untuk mengoptimalkan kinerja dan efisiensi GPU, termasuk pemisahan tahap inferensi pra-pengisian dan dekode, penjadwalan GPU dinamis untuk memenuhi permintaan yang berubah, dan perutean permintaan cerdas yang mengurangi kebutuhan untuk penghitungan ulang cache KV. Selain itu, NVIDIA Dynamo meningkatkan kecepatan transfer data antara GPU dan memungkinkan pemindahan cache KV untuk meningkatkan throughput sistem. Kini tersedia di GitHub, NVIDIA Dynamo juga menawarkan kemampuan tingkat perusahaan melalui NVIDIA AI Enterprise untuk organisasi yang memerlukan dukungan dan stabilitas tingkat lanjut.

Arsitektur NVIDIA Dynamo dirancang untuk memungkinkan penskalaan model AI generatif yang hemat biaya, dari pengaturan GPU tunggal hingga sistem dengan ribuan GPU. Komponen utama kerangka kerja bekerja sama untuk mengelola sumber daya secara efektif dan memastikan throughput tinggi dan latency rendah dalam lingkungan terdistribusi. NVIDIA Dynamo mengatasi tantangan penerapan model AI yang kompleks dalam produksi dengan memisahkan berbagai tahap inferensi dan mengalokasikan sumber daya GPU secara dinamis.

Peluncuran NVIDIA Dynamo menandai langkah maju yang besar dalam layanan inferensi AI, yang dibangun di atas warisan server inferensi NVIDIA Triton. Dengan desain modular dan kemampuan inferensi terdistribusi, NVIDIA Dynamo menawarkan skalabilitas dan kinerja yang lebih baik dalam penerapan multi-simpul dan siap mendukung aplikasi AI generasi berikutnya. Pengembang dan peneliti AI didorong untuk bergabung dengan komunitas NVIDIA Dynamo di GitHub dan berkontribusi pada pengembangan yang berkelanjutan.

Sumber: Blog Pengembang NVIDIA

Bagikan artikel ini:

Tin tức mới nhất

Layanan Mikro NVIDIA NeMo Enhance AI

19/3/25, 04.30

NVIDIA telah memperkenalkan layanan mikro NeMo, solusi komprehensif yang ditujukan untuk membuat agen AI lebih mudah beradaptasi dan efisien.

Baca lebih lanjut

Mengevaluasi Kinerja AI dengan Benchmark NVIDIA DGX Cloud

19/3/25, 04.30

NVIDIA telah memperkenalkan DGX Cloud Benchmarking, serangkaian alat lengkap yang dirancang untuk mengevaluasi kinerja beban kerja AI pada berbagai platform.

Baca lebih lanjut

NVIDIA dan QuEra Mengumumkan Dekoder Kuantum AI Baru

19/3/25, 04.30

NVIDIA mengumumkan kemajuan besar dalam komputasi kuantum di GTC 25, memperkenalkan dekoder AI baru yang dikembangkan bekerja sama dengan QuEra.

Baca lebih lanjut

NVIDIA NeMo Curator Luncurkan Jaringan Video Akselerasi GPU Baru

19/3/25, 04.30

Tim NVIDIA NeMo Curator telah memperkenalkan jaringan streaming baru yang dipercepat GPU untuk kurasi video, yang dirancang untuk menangani sejumlah besar data yang dihasilkan oleh aplikasi AI.

Baca lebih lanjut

Bagikan artikel ini:

Kategori

Peningkat Gambar AI

Pembuat kode AI

Manajemen tugas AI

Tanpa kode/kode rendah

Generator desain grafis AI

Generator seni/ilustrasi AI

Semua alat

Berita

AI dan hukum/peraturan/masyarakat

Perusahaan/produk/teknologi AI

AI Teknologi Besar

OpenAI/ChatGPT

AI generasi kreatif

AI generasi berbasis teks

AI generatif Jepang

Dasar-dasar AI generatif

Panduan penerapan AI terbaik

Profil perusahaan

Tentang kami

Chính sách quyền riêng tư

Điều khoản sử dụng trang web

Công ty điều hành

Hãy theo dõi chúng tôi

Bahasa

Generatived là dịch vụ cung cấp thông tin và xu hướng chuyên về Generative AI. Chúng tôi sẽ cố gắng hết sức để cung cấp thông tin về thế giới đang thay đổi nhanh chóng.

Generatived adalah layanan yang memberikan informasi dan tren khusus dalam AI Generatif. Kami akan melakukan yang terbaik untuk menyampaikan informasi tentang dunia yang berubah dengan cepat.

Ikuti kami

Bahasa

Kategori

Semua alat

Manajemen tugas AI

Generator desain grafis AI

Tanpa kode/kode rendah

Pembuat kode AI

Peningkat Gambar AI

Pembuat Seni/Ilustrasi AI

AI dan hukum/sistem/ekonomi/masyarakat

Perusahaan/produk/teknologi AI

AI berteknologi besar

OpenAI/ChatGPT

AI generasi inovatif

AI generasi berbasis teks

AI inovatif Jepang

Dasar-dasar AI generatif

Petunjuk dasar aplikasi AI

Tin tức

Giới thiệu về chúng tôi

Chính sách quyền riêng tư

Điều khoản sử dụng của trang web

Công ty điều hành

Hồ sơ công ty

Berita terkini

Layanan Mikro NVIDIA NeMo Enhance AI

19/3/25, 04.30

NVIDIA telah memperkenalkan layanan mikro NeMo, solusi komprehensif yang ditujukan untuk membuat agen AI lebih mudah beradaptasi dan efisien.

Baca lebih lanjut

Mengevaluasi Kinerja AI dengan Benchmark NVIDIA DGX Cloud

19/3/25, 04.30

NVIDIA telah memperkenalkan DGX Cloud Benchmarking, serangkaian alat lengkap yang dirancang untuk mengevaluasi kinerja beban kerja AI pada berbagai platform.

Baca lebih lanjut

NVIDIA dan QuEra Mengumumkan Dekoder Kuantum AI Baru

19/3/25, 04.30

NVIDIA mengumumkan kemajuan besar dalam komputasi kuantum di GTC 25, memperkenalkan dekoder AI baru yang dikembangkan bekerja sama dengan QuEra.

Baca lebih lanjut

NVIDIA NeMo Curator Luncurkan Jaringan Video Akselerasi GPU Baru

19/3/25, 04.30

Tim NVIDIA NeMo Curator telah memperkenalkan jaringan streaming baru yang dipercepat GPU untuk kurasi video, yang dirancang untuk menangani sejumlah besar data yang dihasilkan oleh aplikasi AI.

Baca lebih lanjut