Generatif (Beta) |. Memberikan berita dan tren terkini dalam AI generatif
NVIDIA dan Google DeepMind mengumumkan model Gemma AI
Generatived
24/2/22 5:26
NVIDIA mengumumkan kolaborasi dengan Google untuk memperkenalkan Gemma, serangkaian model terbuka baru yang dioptimalkan untuk platform AI NVIDIA. Model Gemma 2B dan 7B yang dikembangkan oleh Google DeepMind dirancang untuk memanfaatkan pustaka TensorRT-LLM guna meningkatkan pengoptimalan inferensi dan memberikan throughput tinggi serta performa tingkat tertinggi. Kolaborasi ini akan memungkinkan pengembang untuk memanfaatkan kekuatan model bahasa skala besar (LLM) pada desktop dengan GPU NVIDIA RTX, sehingga mendemokratisasikan akses ke kemampuan AI tingkat lanjut.
Model Gemma mendukung ukuran kosakata 256K dan panjang konteks hingga 8K, dan dirancang dengan mempertimbangkan keselamatan. Menggabungkan pemfilteran PII untuk menghapus pengidentifikasi sensitif dari kumpulan data dan memastikan pengembangan AI yang bertanggung jawab. Selain itu, model ini mendapat manfaat dari pembelajaran penguatan dari masukan manusia dan selaras dengan praktik AI yang etis. Dilatih dengan lebih dari 6 triliun token, model ini siap membantu pengembang membuat dan menerapkan aplikasi AI tingkat lanjut dengan percaya diri.
TensorRT-LLM memperkenalkan beberapa fitur yang meningkatkan performa model Gemma, termasuk kuantisasi bobot dengan dukungan untuk aktivasi FP8, XQA, dan INT4. FP8 membantu mempercepat aplikasi pembelajaran mendalam, dan XQA, kernel yang dikembangkan oleh NVIDIA AI, mengoptimalkan mekanisme perhatian selama fase pembuatan. Inovasi lainnya, INT4 AWQ, memungkinkan penggunaan memori yang efisien dan peningkatan kinerja dalam skenario dengan bandwidth memori terbatas. Kemajuan ini memungkinkan model Gemma beroperasi dengan akurasi dan kecepatan lebih tinggi bahkan dengan ukuran batch yang lebih kecil.
GPU Tensor Core H200 NVIDIA dikonfigurasi untuk memberikan kinerja luar biasa pada model Gemma, mencapai lebih dari 79.000 token per detik pada Gemma 2B dan hampir 19.000 token per detik pada Gemma 7B. Fitur ini berarti melayani ribuan pengguna secara bersamaan dengan latensi real-time pada satu GPU. Pengembang akan segera dapat merasakan Gemma melalui AI Playground NVIDIA dan aplikasi demo Chat with RTX yang akan datang. Selain itu, pos pemeriksaan model Gemma yang dioptimalkan kini tersedia di NGC, dan versi terkuantisasi FP8 dapat diakses melalui perpustakaan Hugging Face Optimum-NVIDIA, menyederhanakan integrasi inferensi LLM berkecepatan tinggi. saus:
Bagikan artikel ini:
Berita terkini
PR TIMES Jalan menuju penyelesaian masalah sosial 2025
25/1/6 4:30
PR TIMES (Minato-ku, Tokyo) akan merilis pesan Tahun Barunya yang berjudul "Jalan Menuju Publik" pada Hari Tahun Baru 2025.
Reiwa Travel BARU Dukungan akomodasi domestik
25/1/6 4:30
Reiwa Travel (Shibuya-ku, Tokyo) telah mengumumkan perkembangan baru untuk aplikasi perjalanannya "NEWT" pada awal tahun 2025.
Jadwal AirTripFes 2025 diumumkan
25/1/6 4:30
AirTrip (Minato-ku, Tokyo) telah mengumumkan akan menyelenggarakan "AirTrip Fes 2025" pada tanggal 16 Juli 2025.
Copyright © 2024 Generatived - All right Reserved.
Bagikan artikel ini:
Bagikan artikel ini:
Kategori
Berita
AI dan hukum/peraturan/masyarakat
Generatived adalah layanan yang memberikan informasi dan tren khusus dalam AI Generatif. Kami akan melakukan yang terbaik untuk menyampaikan informasi tentang dunia yang berubah dengan cepat.
Profil perusahaan
Berita terkini
PR TIMES Jalan menuju penyelesaian masalah sosial 2025
25/1/6 4:30
PR TIMES (Minato-ku, Tokyo) akan merilis pesan Tahun Barunya yang berjudul "Jalan Menuju Publik" pada Hari Tahun Baru 2025.
Reiwa Travel BARU Dukungan akomodasi domestik
25/1/6 4:30
Reiwa Travel (Shibuya-ku, Tokyo) telah mengumumkan perkembangan baru untuk aplikasi perjalanannya "NEWT" pada awal tahun 2025.
Jadwal AirTripFes 2025 diumumkan
25/1/6 4:30
AirTrip (Minato-ku, Tokyo) telah mengumumkan akan menyelenggarakan "AirTrip Fes 2025" pada tanggal 16 Juli 2025.