MiniGPT-4: Model AI sumber terbuka untuk tugas bahasa visual yang kompleks 2/2967

Generatif (Beta) |. Memberikan berita dan tren terkini dalam AI generatif

MiniGPT-4: Model AI sumber terbuka untuk tugas bahasa visual yang kompleks

Dengan dirilisnya model bahasa besar terbaru OpenAI, GPT-4, banyak orang tertarik dengan fitur-fitur canggih untuk melakukan tugas bahasa visi yang kompleks. Namun, alasan di balik kinerjanya yang luar biasa masih belum sepenuhnya dipahami. Dalam makalah penelitian terbaru, tim Ph.D. mahasiswa dari Universitas Sains dan Teknologi King Abdullah mengusulkan model baru yang disebut MiniGPT-4 untuk menyelidiki hipotesis lebih lanjut.

Apa itu MiniGPT-4?
MiniGPT-4 adalah model sumber terbuka yang dapat melakukan tugas bahasa visual kompleks yang mirip dengan GPT-4. Dikembangkan oleh tim yang disebutkan di atas, MiniGPT-4 menggunakan LLM canggih yang disebut Vicuna sebagai decoder bahasa. Itu dibangun di atas LLaMA dan dilaporkan mencapai 90% kualitas ChatGPT sebagaimana dinilai oleh GPT-4. Ketika diminta untuk mengidentifikasi masalah dari masukan gambar, MiniGPT-4 dapat menemukan konten anomali dalam gambar, membuat iklan produk, membuat resep mendetail, membuat lagu rap yang terinspirasi gambar, Ini menunjukkan hasil yang luar biasa, termasuk menemukan fakta langsung dari gambar.

bagaimana cara kerjanya?
MiniGPT-4 menggunakan arsitektur transformator untuk menyelaraskan fitur visual yang dikodekan dengan model bahasa Vicuna. Komponen visi terlatih dari BLIP-2 digunakan dan satu lapisan proyeksi ditambahkan untuk menyelaraskan fitur visual ke model bahasa dengan membekukan semua komponen visi dan bahasa lainnya. Hal ini menciptakan model yang sangat efisien dan efektif yang dapat mendeskripsikan gambar secara detail dan akurat, menjelaskan fenomena visual yang tidak biasa, mengembangkan situs web menggunakan instruksi teks tulisan tangan, dan banyak lagi.

Apa kelebihannya?
Salah satu keunggulan terpenting MiniGPT-4 adalah efisiensi komputasinya yang tinggi, yang hanya memerlukan sekitar 5 juta pasangan gambar-teks yang disejajarkan untuk melatih lapisan proyeksi. Selain itu, model ini hanya perlu dilatih pada empat GPU A100 selama kurang lebih 10 jam. Hal ini menjadikannya pilihan yang mudah diakses dan hemat biaya bagi peneliti dan pengembang yang ingin membuat model bahasa visual tingkat lanjut.

Apa saja tantangannya?
Meskipun MiniGPT-4 menunjukkan kemampuan yang mengesankan, sulit untuk mengembangkan model berperforma tinggi hanya dengan menggunakan pasangan gambar-teks mentah dari kumpulan data publik dan menyesuaikan fitur visual ke LLM. Hal ini dapat mengakibatkan frasa berulang atau kalimat terfragmentasi. Untuk mengatasi keterbatasan ini, MiniGPT-4 harus dilatih menggunakan kumpulan data berkualitas tinggi dan terkalibrasi dengan baik. Hal ini meningkatkan kegunaan model dengan menghasilkan keluaran bahasa yang lebih alami dan konsisten.

Masa depan MiniGPT-4
MiniGPT-4 mewakili perkembangan yang menjanjikan di bidang AI dan pembelajaran mesin, khususnya di bidang tugas bahasa visual. Sifatnya yang open source membuatnya dapat diakses oleh para peneliti dan pengembang, dan fitur-fiturnya yang mengesankan menjadikannya pilihan yang menarik untuk membuat model tingkat lanjut. Seiring dengan dilakukannya penelitian lebih lanjut dan kumpulan data berkualitas lebih tinggi tersedia, MiniGPT-4 berpotensi merevolusi cara kita melakukan tugas bahasa visual yang kompleks.

ringkasan
MiniGPT-4 telah mencapai hasil yang mengesankan di bidang AI dan pembelajaran mesin. Kemampuannya untuk melakukan tugas-tugas bahasa visual yang kompleks menjadikannya alat yang berharga bagi peneliti dan pengembang. Karena sifat open source dan fungsionalitasnya yang unggul, MiniGPT-4 berpotensi merevolusi bidang ini dan menghasilkan aplikasi baru dan inovatif.

Bagikan artikel ini:

Berita terkini

Pelatihan AI TENHO dan MODEC

25/1/13 4:30

TENHO (Shibuya-ku, Tokyo) mengadakan lokakarya di MODEC Ocean Development (Chuo-ku, Tokyo) menggunakan alat Generative AI "MODEC sensei."

Baca lebih lanjut

PlayNext Lab Miyawaka City AI Concierge Diluncurkan

25/1/13 4:30

PlayNext Lab (Shinagawa-ku, Tokyo) telah berkolaborasi dengan Kota Miyawaka (Prefektur Fukuoka) untuk meluncurkan layanan "Smart Public Lab AI Concierge".

Baca lebih lanjut

Galirage × Progate menjadi tuan rumah bersama seminar Digital Transformation

25/1/13 4:30

Galirage (Kota Kawasaki, Prefektur Kanagawa) akan bekerja sama dengan Progate (Distrik Shibuya, Tokyo) untuk menyelenggarakan seminar daring pada tanggal 27 Januari 2025

Baca lebih lanjut

Dukungan untuk analisis data agregat dengan INTAGE AI

25/1/13 4:30

Intage (Chiyoda-ku, Tokyo) telah menambahkan versi beta dari fungsi pembuatan komentar AI ke alat pengumpulan data daringnya, Lyche-Board.

Baca lebih lanjut

Bagikan artikel ini:

Kategori

Peningkat Gambar AI

Pembuat kode AI

Manajemen tugas AI

Tanpa kode/kode rendah

Generator desain grafis AI

Generator seni/ilustrasi AI

Semua alat

Berita

AI dan hukum/peraturan/masyarakat

Perusahaan/produk/teknologi AI

AI Teknologi Besar

OpenAI/ChatGPT

AI generasi kreatif

AI generasi berbasis teks

AI generatif Jepang

Dasar-dasar AI generatif

Panduan penerapan AI terbaik

Profil perusahaan

Tentang kami

Kebijakan Privasi

Ketentuan Penggunaan Situs

Perusahaan yang mengoperasikan

Ikuti kami

Bahasa

Generatived adalah layanan yang memberikan informasi dan tren khusus dalam AI Generatif. Kami akan melakukan yang terbaik untuk menyampaikan informasi tentang dunia yang berubah dengan cepat.

Ikuti kami

Bahasa

Kategori

Semua alat

Manajemen tugas AI

Generator desain grafis AI

Tanpa kode/kode rendah

Pembuat kode AI

Peningkat Gambar AI

Generator seni/ilustrasi AI

AI dan hukum/sistem/ekonomi/masyarakat

Perusahaan/produk/teknologi AI

AI Teknologi Besar

OpenAI/ChatGPT

AI generasi kreatif

AI generasi berbasis teks

AI generatif Jepang

Dasar-dasar AI generatif

Panduan aplikasi AI terbaik

Berita

Tentang kami

Kebijakan privasi

Ketentuan Penggunaan Situs

Perusahaan pengelola

Profil perusahaan

Berita terkini

Pelatihan AI TENHO dan MODEC

25/1/13 4:30

TENHO (Shibuya-ku, Tokyo) mengadakan lokakarya di MODEC Ocean Development (Chuo-ku, Tokyo) menggunakan alat Generative AI "MODEC sensei."

Baca lebih lanjut

PlayNext Lab Miyawaka City AI Concierge Diluncurkan

25/1/13 4:30

PlayNext Lab (Shinagawa-ku, Tokyo) telah berkolaborasi dengan Kota Miyawaka (Prefektur Fukuoka) untuk meluncurkan layanan "Smart Public Lab AI Concierge".

Baca lebih lanjut

Galirage × Progate menjadi tuan rumah bersama seminar Digital Transformation

25/1/13 4:30

Galirage (Kota Kawasaki, Prefektur Kanagawa) akan bekerja sama dengan Progate (Distrik Shibuya, Tokyo) untuk menyelenggarakan seminar daring pada tanggal 27 Januari 2025

Baca lebih lanjut

Dukungan untuk analisis data agregat dengan INTAGE AI

25/1/13 4:30

Intage (Chiyoda-ku, Tokyo) telah menambahkan versi beta dari fungsi pembuatan komentar AI ke alat pengumpulan data daringnya, Lyche-Board.

Baca lebih lanjut