Tim CMU-NVIDIA Meluncurkan Pendekatan Sistem AAC yang Ditingkatkan 5/2522

Generatif (Beta) |. Memberikan berita dan tren terkini dalam AI generatif

Tim CMU-NVIDIA Mengumumkan Pendekatan Sistem AAC yang Ditingkatkan

Generatived

24/10/23 4:30

Tugas pembuatan teks audio otomatis (AAC) mendapatkan perhatian karena memungkinkan mesin menafsirkan dan berinteraksi dengan lingkungan akustik sekitarnya. Sejak tahun 2020, lebih dari 26 tim dari seluruh dunia telah berpartisipasi dalam kompetisi AAC tahunan, yang diselenggarakan oleh komunitas Detection and Classification of Acoustic Scenes and Events (DCASE). Tim-tim ini, dengan latar belakang akademisi dan industri, berfokus pada peningkatan arsitektur encoder-decoder yang membentuk tulang punggung sistem AAC.

Carnegie Mellon University (CMU) dan NVIDIA berkolaborasi dalam pendekatan inovatif terhadap DCASE 2024 AAC Challenge di Tokyo. Proposal mereka memperkenalkan beberapa encoder audio ke dalam arsitektur untuk menangkap dan mendeskripsikan fitur audio yang lebih kaya. Strategi multi-encoder ini dilengkapi dengan perintah aktivasi tugas berbasis model bahasa (LM) untuk meningkatkan proses pengeditan pasca-informasi. Profesor Shinji Watanabe dari Institut Teknologi Bahasa CMU menyoroti kolaborasi ini dan kontribusinya terhadap komunitas pemahaman audio dan bahasa.

Pendekatan tim CMU-NVIDIA juga mencakup kolaborasi multi-agen antara model encoder yang berbeda, yang membantu meningkatkan kinerja. Dengan mengintegrasikan encoder dengan granularitas berbeda, seperti BEAT dan ConvNeXt, sistem ini mencapai cakupan fitur audio yang lebih komprehensif. Strategi ini mirip dengan penelitian AI multimodal baru-baru ini di mana penggabungan agen khusus memberikan hasil yang lebih unggul. Sistem tim juga menggabungkan pengayaan berbasis hipotesis teks, memanfaatkan teknik evaluasi GenTranslate dan Generative Image Captioning (GIC) dari NVIDIA Research.

Kinerja sistem AAC telah ditingkatkan secara signifikan melalui penggunaan teknologi komputer NVIDIA yang canggih, termasuk cluster superkomputer Taipei-1. Sistem multi-encoder mencapai skor FENSE (Fluency Enhanced Sentence-BERT Evaluation) sebesar 0,5442, yang melampaui skor dasar sebesar 0,5040. Keberhasilan ini menunjukkan potensi sistem multi-agen dan multi-modal untuk meningkatkan pemahaman umum. Penggunaan model bahasa berskala besar untuk koreksi teks merupakan inovasi penting, yang memungkinkan model menyaring informasi tersembunyi dalam ucapan. Teknologi GPU canggih NVIDIA, termasuk GPU A100 dan H100, telah memainkan peran penting dalam mempercepat pengembangan AI dan memperluas kemungkinan pembelajaran multimodal.

Sumber: Blog Pengembang NVIDIA

Bagikan artikel ini:

Berita terkini

Fungsi baru AI Pemerintah Daerah Shift Plus diluncurkan

24/11/6 5:30

Shift Plus (Kota Miyakonojo, Prefektur Miyazaki) telah mulai menyediakan AI generasi baru "Claude 3.5 Haiku" ke "Kota AI Zevo"

Baca lebih lanjut

ANA Future Creation Fund berinvestasi di Sakana AI

24/11/6 5:30

ANA Future Creation Fund, yang dioperasikan oleh Global Brain (Shibuya-ku, Tokyo), telah berinvestasi di Sakana AI (Minato-ku, Tokyo).

Baca lebih lanjut

Mengumumkan pembentukan Departemen AI Edge Baru

24/11/6 5:30

Nianhui Technology Co., Ltd. (Taipei) mengumumkan pembentukan divisi AI edge baru untuk memenuhi kebutuhan analisis data real-time perusahaan.

Baca lebih lanjut

Dukungan bisnis Tokyu Livable x Alsaga AI dimulai

24/11/6 5:30

Tokyu Livable (Shibuya-ku, Tokyo) dan Alsaga Partners (Shibuya-ku, Tokyo) telah mengembangkan sistem khusus bisnis menggunakan AI generatif "ChatGPT."

Baca lebih lanjut

Bagikan artikel ini:

Kategori

Peningkat Gambar AI

Pembuat kode AI

Manajemen tugas AI

Tanpa kode/kode rendah

Generator desain grafis AI

Generator seni/ilustrasi AI

Semua alat

Berita

AI dan hukum/peraturan/masyarakat

Perusahaan/produk/teknologi AI

AI Teknologi Besar

OpenAI/ChatGPT

AI generasi kreatif

AI generasi berbasis teks

AI generatif Jepang

Dasar-dasar AI generatif

Panduan penerapan AI terbaik

Profil perusahaan

Tentang kami

Kebijakan Privasi

Ketentuan Penggunaan Situs

Perusahaan yang mengoperasikan

Ikuti kami

Bahasa

Generatived adalah layanan yang memberikan informasi dan tren khusus dalam AI Generatif. Kami akan melakukan yang terbaik untuk menyampaikan informasi tentang dunia yang berubah dengan cepat.

Ikuti kami

Kategori

Semua alat

Manajemen tugas AI

Generator desain grafis AI

Tanpa kode/kode rendah

Pembuat kode AI

Peningkat Gambar AI

Generator seni/ilustrasi AI

AI dan hukum/sistem/ekonomi/masyarakat

Perusahaan/produk/teknologi AI

AI Teknologi Besar

OpenAI/ChatGPT

AI generasi kreatif

AI generasi berbasis teks

AI generatif Jepang

Dasar-dasar AI generatif

Panduan aplikasi AI terbaik

Berita

Tentang kami

Kebijakan privasi

Ketentuan Penggunaan Situs

Perusahaan pengelola

Profil perusahaan

Berita terkini

Fungsi baru AI Pemerintah Daerah Shift Plus diluncurkan

24/11/6 5:30

Shift Plus (Kota Miyakonojo, Prefektur Miyazaki) telah mulai menyediakan AI generasi baru "Claude 3.5 Haiku" ke "Kota AI Zevo"

Baca lebih lanjut

ANA Future Creation Fund berinvestasi di Sakana AI

24/11/6 5:30

ANA Future Creation Fund, yang dioperasikan oleh Global Brain (Shibuya-ku, Tokyo), telah berinvestasi di Sakana AI (Minato-ku, Tokyo).

Baca lebih lanjut

Mengumumkan pembentukan Departemen AI Edge Baru

24/11/6 5:30

Nianhui Technology Co., Ltd. (Taipei) mengumumkan pembentukan divisi AI edge baru untuk memenuhi kebutuhan analisis data real-time perusahaan.

Baca lebih lanjut

Dukungan bisnis Tokyu Livable x Alsaga AI dimulai

24/11/6 5:30

Tokyu Livable (Shibuya-ku, Tokyo) dan Alsaga Partners (Shibuya-ku, Tokyo) telah mengembangkan sistem khusus bisnis menggunakan AI generatif "ChatGPT."

Baca lebih lanjut