NVIDIA TensorRT-LLM Memperkenalkan Fitur Chunked Prefill yang Efisien 3/2621

Generatif (Beta) |. Memberikan berita dan tren terkini dalam AI generatif

NVIDIA TensorRT-LLM Memperkenalkan Fitur Chunked Prefill yang Efisien

Generatived

24/11/18 4:30

NVIDIA telah memperkenalkan fitur baru dalam TensorRT-LLM yang meningkatkan pemanfaatan GPU dan menyederhanakan proses penerapan bagi para pengembang. Fitur ini, yang dikenal sebagai chunked prefill, mengatasi tantangan komputasi yang ditimbulkan oleh fase prefill dan decode inference tradisional. Dengan membagi token input menjadi potongan-potongan yang lebih kecil, sistem dapat memproses cache KV dengan lebih efisien, memungkinkan penanganan beberapa permintaan secara bersamaan dan mencegah kemacetan selama fase prefill.

Pendekatan prapengisian berpotongan tidak hanya meningkatkan kinerja GPU tetapi juga memungkinkan sistem untuk mengelola konteks yang lebih panjang dan tingkat konkurensi yang lebih tinggi tanpa meningkatkan permintaan memori. Hal ini sangat bermanfaat karena memisahkan konsumsi memori dari panjang konteks permintaan yang masuk, sehingga memungkinkan pemrosesan panjang konteks yang lebih besar secara lebih efektif.

Selain itu, NVIDIA telah membuat langkah maju dalam menyederhanakan proses pembuatan mesin dengan penerapan ukuran chunk dinamis. Fitur ini secara otomatis merekomendasikan ukuran chunk optimal berdasarkan metrik penggunaan GPU, sehingga menghilangkan kebutuhan pengembang untuk secara manual menentukan panjang input maksimum. Hasilnya, ukuran buffer aktivasi kini ditentukan oleh ukuran chunk yang dikonfigurasi, yang menghasilkan penggunaan memori yang lebih efisien selama eksekusi.

Pengenalan chunked prefill di TensorRT-LLM menandai peningkatan signifikan dalam kinerja dan pemanfaatan sistem. Dengan memfasilitasi paralelisasi yang lebih baik antara fase prefill dan decode serta mengurangi waktu penyelesaian kueri, NVIDIA meningkatkan pengalaman pengguna. Pengembang yang tertarik memanfaatkan fitur ini dapat menemukan informasi lebih lanjut dan memulai melalui dokumentasi GitHub NVIDIA, mengikuti perkembangan terbaru dalam kinerja inferensi AI.

Sumber: Siaran Pers Fujitsu

Bagikan artikel ini:

Berita terkini

NVIDIA TensorRT-LLM Memperkenalkan Fitur Chunked Prefill yang Efisien

24/11/18 4:30

NVIDIA telah memperkenalkan fitur baru dalam TensorRT-LLM yang meningkatkan pemanfaatan GPU dan menyederhanakan proses penerapan bagi para pengembang.

Baca lebih lanjut

Google Docs Menambahkan Fitur Pembuatan Gambar Kustom

24/11/18 4:30

Google Docs telah memperkenalkan fitur baru yang memungkinkan pengguna membuat gambar sebaris khusus dan gambar sampul full-bleed dalam dokumen.

Baca lebih lanjut

Visier Mengumumkan Keberhasilan Inisiatif Workforce AI Edge

24/11/15 4:30

Visier melaporkan hasil yang kuat pada kuartal ketiga tahun fiskalnya, menyoroti meningkatnya permintaan untuk solusi AI tenaga kerjanya.

Baca lebih lanjut

Webware Tech Meluncurkan Rivi, Agen Pemasaran Berbasis AI

24/11/15 4:30

Webware.ai telah meluncurkan Rivi, agen penjualan dan pemasaran bertenaga AI baru yang dirancang untuk meningkatkan kehadiran digital bisnis jasa skala kecil dan menengah.

Baca lebih lanjut

Bagikan artikel ini:

Kategori

Peningkat Gambar AI

Pembuat kode AI

Manajemen tugas AI

Tanpa kode/kode rendah

Generator desain grafis AI

Generator seni/ilustrasi AI

Semua alat

Berita

AI dan hukum/peraturan/masyarakat

Perusahaan/produk/teknologi AI

AI Teknologi Besar

OpenAI/ChatGPT

AI generasi kreatif

AI generasi berbasis teks

AI generatif Jepang

Dasar-dasar AI generatif

Panduan penerapan AI terbaik

Profil perusahaan

Tentang kami

Kebijakan Privasi

Ketentuan Penggunaan Situs

Perusahaan yang mengoperasikan

Ikuti kami

Bahasa

Generatived adalah layanan yang memberikan informasi dan tren khusus dalam AI Generatif. Kami akan melakukan yang terbaik untuk menyampaikan informasi tentang dunia yang berubah dengan cepat.

Ikuti kami

Bahasa

Kategori

Semua alat

Manajemen tugas AI

Generator desain grafis AI

Tanpa kode/kode rendah

Pembuat kode AI

Peningkat Gambar AI

Generator seni/ilustrasi AI

AI dan hukum/sistem/ekonomi/masyarakat

Perusahaan/produk/teknologi AI

AI Teknologi Besar

OpenAI/ChatGPT

AI generasi kreatif

AI generasi berbasis teks

AI generatif Jepang

Dasar-dasar AI generatif

Panduan aplikasi AI terbaik

Berita

Tentang kami

Kebijakan privasi

Ketentuan Penggunaan Situs

Perusahaan pengelola

Profil perusahaan

Berita terkini

NVIDIA TensorRT-LLM Memperkenalkan Fitur Chunked Prefill yang Efisien

24/11/18 4:30

NVIDIA telah memperkenalkan fitur baru dalam TensorRT-LLM yang meningkatkan pemanfaatan GPU dan menyederhanakan proses penerapan bagi para pengembang.

Baca lebih lanjut

Google Docs Menambahkan Fitur Pembuatan Gambar Kustom

24/11/18 4:30

Google Docs telah memperkenalkan fitur baru yang memungkinkan pengguna membuat gambar sebaris khusus dan gambar sampul full-bleed dalam dokumen.

Baca lebih lanjut

Visier Mengumumkan Keberhasilan Inisiatif Workforce AI Edge

24/11/15 4:30

Visier melaporkan hasil yang kuat pada kuartal ketiga tahun fiskalnya, menyoroti meningkatnya permintaan untuk solusi AI tenaga kerjanya.

Baca lebih lanjut

Webware Tech Meluncurkan Rivi, Agen Pemasaran Berbasis AI

24/11/15 4:30

Webware.ai telah meluncurkan Rivi, agen penjualan dan pemasaran bertenaga AI baru yang dirancang untuk meningkatkan kehadiran digital bisnis jasa skala kecil dan menengah.

Baca lebih lanjut