Generatived (Beta) | Cung cấp tin tức và xu hướng mới nhất về AI sáng tạo

Nhóm CMU-NVIDIA công bố phương pháp tiếp cận hệ thống AAC nâng cao

Generatived

24/10/23 4:30

Nhiệm vụ phụ đề âm thanh tự động (AAC) đang thu hút sự chú ý vì chúng cho phép máy diễn giải và tương tác với môi trường âm thanh xung quanh. Kể từ năm 2020, hơn 26 đội từ khắp nơi trên thế giới đã tham gia cuộc thi AAC thường niên, do cộng đồng Phát hiện và Phân loại Cảnh và Sự kiện Âm thanh (DCASE) tổ chức. Các nhóm này, có nền tảng về cả học thuật và công nghiệp, tập trung vào việc nâng cao kiến trúc bộ mã hóa-giải mã vốn tạo thành xương sống của hệ thống AAC.

Đại học Carnegie Mellon (CMU) và NVIDIA đang hợp tác để tìm ra cách tiếp cận đổi mới cho Thử thách AAC DCASE 2024 ở Tokyo. Đề xuất của họ đưa nhiều bộ mã hóa âm thanh vào kiến trúc, cho phép ghi lại và mô tả các tính năng âm thanh phong phú hơn. Chiến lược đa bộ mã hóa này được bổ sung bằng các lời nhắc kích hoạt tác vụ dựa trên mô hình ngôn ngữ (LM) để nâng cao quá trình chỉnh sửa sau thông tin. Giáo sư Shinji Watanabe của Viện Công nghệ Ngôn ngữ CMU nhấn mạnh sự hợp tác này và đóng góp của nó cho cộng đồng hiểu biết ngôn ngữ và âm thanh.

Cách tiếp cận của nhóm CMU-NVIDIA cũng bao gồm sự cộng tác đa tác nhân giữa các mô hình bộ mã hóa khác nhau, giúp cải thiện hiệu suất. Bằng cách tích hợp các bộ mã hóa với mức độ chi tiết khác nhau, chẳng hạn như BEAT và ConvNeXt, hệ thống đạt được phạm vi bao phủ toàn diện hơn về các tính năng âm thanh. Chiến lược này tương tự như nghiên cứu AI đa phương thức gần đây, trong đó sự kết hợp của các tác nhân chuyên biệt sẽ mang lại kết quả vượt trội. Hệ thống của nhóm cũng kết hợp việc làm giàu dựa trên giả thuyết văn bản, tận dụng các kỹ thuật đánh giá GenTranslate và Generative Image Captioning (GIC) của NVIDIA Research.

Hiệu năng của hệ thống AAC đã được cải thiện đáng kể nhờ sử dụng công nghệ máy tính tiên tiến của NVIDIA, trong đó có cụm siêu máy tính Taipei-1. Hệ thống đa bộ mã hóa đã đạt được điểm FENSE (Đánh giá câu nâng cao lưu loát-BERT) là 0,5442, vượt quá điểm cơ bản là 0,5040. Thành công này chứng tỏ tiềm năng của các hệ thống đa tác nhân, đa phương thức trong việc nâng cao hiểu biết chung. Việc sử dụng các mô hình ngôn ngữ quy mô lớn để sửa văn bản là một cải tiến quan trọng, cho phép các mô hình tinh chỉnh thông tin ẩn trong lời nói. Các công nghệ GPU tiên tiến của NVIDIA, bao gồm GPU A100 và H100, đã đóng một vai trò then chốt trong việc thúc đẩy phát triển AI và mở rộng khả năng học tập đa phương thức.

Nguồn: Blog nhà phát triển NVIDIA

Chia sẻ bài viết này:

Tin tức mới nhất

Dịch vụ tra cứu Avatar của SELF AI đã ra mắt

24/11/14 4:30

SELF (Shinjuku-ku, Tokyo) đã ra mắt dịch vụ phản hồi yêu cầu sử dụng hình đại diện AI.

đọc thêm

Chương trình huấn luyện tương tác NEO SHAKE HANDS bắt đầu

24/11/14 4:30

NEO SHAKE HANDS (Thành phố Yamanashi, Tỉnh Yamanashi) vừa thông báo rằng họ sẽ bắt đầu cung cấp "Talk 365", một dịch vụ huấn luyện tương tác kết hợp LINE và Chat GPT.

đọc thêm

Chức năng mới cơ bản "ferret One" hỗ trợ AI

24/11/14 4:30

Basic (Chiyoda-ku, Tokyo) đã thông báo rằng họ đã bổ sung các chức năng mới vào công cụ tiếp thị BtoB "ferret One".

đọc thêm

Hội thảo Giáo dục AI do Mates và Mingaku đồng tổ chức

24/11/14 4:30

Mates (Shinjuku-ku, Tokyo) và Mingaku (Meguro-ku, Tokyo) sẽ đồng tổ chức một hội thảo để khám phá sự khác biệt giữa giáo dục công và tư khi nói đến việc sử dụng AI trong giáo dục.

đọc thêm

Chia sẻ bài viết này:

Danh mục

Trình nâng cao hình ảnh AI

Trình tạo mã AI

Quản lý tác vụ AI

Không có mã/mã thấp

Trình tạo thiết kế đồ họa AI

Trình tạo minh họa/nghệ thuật AI

Tất cả công cụ

Tin tức

AI và luật/hệ thống/kinh tế/xã hội

Các công ty/sản phẩm/công nghệ AI

AI công nghệ lớn

OpenAI/ChatGPT

AI thế hệ sáng tạo

AI thế hệ dựa trên văn bản

AI sáng tạo của Nhật Bản

Cơ bản về AI sáng tạo

Hướng dẫn ứng dụng AI cơ bản

Hồ sơ công ty

Giới thiệu về chúng tôi

Chính sách quyền riêng tư

Điều khoản sử dụng trang web

Công ty điều hành

Hãy theo dõi chúng tôi

Ngôn ngữ

Generatived là dịch vụ cung cấp thông tin và xu hướng chuyên về Generative AI. Chúng tôi sẽ cố gắng hết sức để cung cấp thông tin về thế giới đang thay đổi nhanh chóng.

Hãy theo dõi chúng tôi

Ngôn ngữ

Danh mục

Tất cả công cụ

Quản lý tác vụ AI

Trình tạo thiết kế đồ họa AI

Không có mã/mã thấp

Trình tạo mã AI

Trình nâng cao hình ảnh AI

Trình tạo minh họa/nghệ thuật AI

AI và luật/hệ thống/kinh tế/xã hội

Các công ty/sản phẩm/công nghệ AI

AI công nghệ lớn

OpenAI/ChatGPT

AI thế hệ sáng tạo

AI thế hệ dựa trên văn bản

AI sáng tạo của Nhật Bản

Cơ bản về AI tạo ra

Hướng dẫn ứng dụng AI cơ bản

Tin tức

Giới thiệu về chúng tôi

Chính sách quyền riêng tư

Điều khoản sử dụng của trang web

Công ty điều hành

Hồ sơ công ty

Tin tức mới nhất

Dịch vụ tra cứu Avatar của SELF AI đã ra mắt

24/11/14 4:30

SELF (Shinjuku-ku, Tokyo) đã ra mắt dịch vụ phản hồi yêu cầu sử dụng hình đại diện AI.

đọc thêm

Chương trình huấn luyện tương tác NEO SHAKE HANDS bắt đầu

24/11/14 4:30

NEO SHAKE HANDS (Thành phố Yamanashi, Tỉnh Yamanashi) vừa thông báo rằng họ sẽ bắt đầu cung cấp "Talk 365", một dịch vụ huấn luyện tương tác kết hợp LINE và Chat GPT.

đọc thêm

Chức năng mới cơ bản "ferret One" hỗ trợ AI

24/11/14 4:30

Basic (Chiyoda-ku, Tokyo) đã thông báo rằng họ đã bổ sung các chức năng mới vào công cụ tiếp thị BtoB "ferret One".

đọc thêm

Hội thảo Giáo dục AI do Mates và Mingaku đồng tổ chức

24/11/14 4:30

Mates (Shinjuku-ku, Tokyo) và Mingaku (Meguro-ku, Tokyo) sẽ đồng tổ chức một hội thảo để khám phá sự khác biệt giữa giáo dục công và tư khi nói đến việc sử dụng AI trong giáo dục.

đọc thêm