Generatived (Beta) | Cung cấp tin tức và xu hướng mới nhất về AI sáng tạo

Pic2Word: Ánh xạ hình ảnh thành từ để nâng cao khả năng tìm kiếm hình ảnh

Theo Google, sinh viên nghiên cứu Kuniaki Saito và Nhà khoa học nghiên cứu Kihyuk Sohn từ nhóm Google AI của Google Research đã phát triển một hệ thống mới có tên Pic2Word có thể ánh xạ ảnh thành từ để tìm kiếm hình ảnh tổng hợp không cần chụp.

Truy xuất hình ảnh là một tính năng quan trọng của công cụ tìm kiếm và người dùng thường sử dụng hình ảnh hoặc văn bản làm truy vấn để tìm hình ảnh mục tiêu mong muốn. Tuy nhiên, có thể khó mô tả chính xác hình ảnh bằng từ ngữ. Điều này gây ra sự cố khi người dùng tìm kiếm các thuộc tính nhất định trong hình ảnh, chẳng hạn như màu của biểu tượng hoặc màu của chính biểu tượng, có thể khác với những gì họ tìm thấy trên trang web.

Để giải quyết vấn đề này, bài viết này giới thiệu Truy xuất hình ảnh tổng hợp (CIR), cho phép người dùng truy xuất hình ảnh dựa trên các truy vấn kết hợp cả hình ảnh và mẫu văn bản. Mẫu văn bản giải thích cách sửa đổi hình ảnh để khớp chính xác với mục tiêu tìm kiếm dự định. Cách tiếp cận này kết hợp thông tin hình ảnh và văn bản để tìm kiếm hình ảnh chính xác hơn.

Tuy nhiên, các phương pháp CIR hiện tại yêu cầu lượng lớn dữ liệu được dán nhãn, có thể tốn kém và có khả năng khái quát hóa hạn chế cho các bộ dữ liệu khác nhau. Để vượt qua những thách thức này, bài viết này đề xuất một nhiệm vụ mới gọi là truy xuất hình ảnh tổng hợp không chụp (ZS-CIR). Mục tiêu của ZS-CIR là xây dựng một mô hình CIR duy nhất có thể thực hiện nhiều tác vụ CIR khác nhau như định cấu hình đối tượng, chỉnh sửa thuộc tính và chuyển đổi miền mà không cần dựa vào dữ liệu bộ ba được gắn nhãn.

Phương pháp đề xuất đề xuất sử dụng các cặp chú thích ảnh có quy mô lớn và ảnh chưa được gắn nhãn để huấn luyện mô hình truy xuất thay vì dữ liệu được dán nhãn. Cách tiếp cận này hỗ trợ rất nhiều cho việc thu thập dữ liệu và cho phép đào tạo các mô hình trên quy mô lớn.

Hiệu quả của mô hình đã huấn luyện được xác minh thông qua nhiều thử nghiệm khác nhau trên các nhiệm vụ CIR khác nhau. Một hướng nghiên cứu tiềm năng trong tương lai được đề cập trong bài viết là mở rộng việc sử dụng dữ liệu hình ảnh trong nghiên cứu hiện tại để sử dụng dữ liệu chú thích để huấn luyện mạng bản đồ. Sự tiến bộ này hứa hẹn sẽ cải thiện khả năng tìm kiếm hình ảnh và trải nghiệm người dùng trong lĩnh vực tìm kiếm hình ảnh tổng hợp zero-shot.

Chia sẻ bài viết này:

Tin tức mới nhất

Cơ sở Godot Châu Âu, nghiên cứu AI với sự hỗ trợ của VBA

24/12/27 4:30

Godot GmbH (Vienna, Áo), cơ sở R&D tại Châu Âu của Godot (Kobe, Tỉnh Hyogo), đã được chọn cho chương trình "Tài trợ đổi mới" của VBA.

đọc thêm

Tầm nhìn & Shikigaku, Arosal Investments

24/12/27 4:30

Vision Platform (Minato-ku, Tokyo) và Shikigaku (Shinagawa-ku, Tokyo) đã công bố đầu tư vào Arosal Technology (Minato-ku, Tokyo).

đọc thêm

Hợp tác phát triển đại lý AI AVILEN Otsuka Shokai

24/12/27 4:30

AVILEN (Chuo-ku, Tokyo) và Otsuka Shokai (Chiyoda-ku, Tokyo) đã bắt tay vào phát triển chung một tác nhân AI có thể tận dụng tối đa Generative AI) tạo ra.

đọc thêm

Thông báo giảm giá phiên bản giới hạn Nothing Lucky Bag 2025

24/12/27 4:30

Nothing (London) thông báo sẽ bán "Nothing Fukubukuro 2025" trong thời gian có hạn từ ngày 2 đến ngày 5 tháng 1 năm 2025.

đọc thêm

Chia sẻ bài viết này:

Danh mục

Trình nâng cao hình ảnh AI

Trình tạo mã AI

Quản lý tác vụ AI

Không có mã/mã thấp

Trình tạo thiết kế đồ họa AI

Trình tạo minh họa/nghệ thuật AI

Tất cả công cụ

Tin tức

AI và luật/hệ thống/kinh tế/xã hội

Các công ty/sản phẩm/công nghệ AI

AI công nghệ lớn

OpenAI/ChatGPT

AI thế hệ sáng tạo

AI thế hệ dựa trên văn bản

AI sáng tạo của Nhật Bản

Cơ bản về AI sáng tạo

Hướng dẫn ứng dụng AI cơ bản

Hồ sơ công ty

Giới thiệu về chúng tôi

Chính sách quyền riêng tư

Điều khoản sử dụng trang web

Công ty điều hành

Hãy theo dõi chúng tôi

Ngôn ngữ

Generatived là dịch vụ cung cấp thông tin và xu hướng chuyên về Generative AI. Chúng tôi sẽ cố gắng hết sức để cung cấp thông tin về thế giới đang thay đổi nhanh chóng.

Hãy theo dõi chúng tôi

Ngôn ngữ

Danh mục

Tất cả công cụ

Quản lý tác vụ AI

Trình tạo thiết kế đồ họa AI

Không có mã/mã thấp

Trình tạo mã AI

Trình nâng cao hình ảnh AI

Trình tạo minh họa/nghệ thuật AI

AI và luật/hệ thống/kinh tế/xã hội

Các công ty/sản phẩm/công nghệ AI

AI công nghệ lớn

OpenAI/ChatGPT

AI thế hệ sáng tạo

AI thế hệ dựa trên văn bản

AI sáng tạo của Nhật Bản

Cơ bản về AI tạo ra

Hướng dẫn ứng dụng AI cơ bản

Tin tức

Giới thiệu về chúng tôi

Chính sách quyền riêng tư

Điều khoản sử dụng của trang web

Công ty điều hành

Hồ sơ công ty

Tin tức mới nhất

Cơ sở Godot Châu Âu, nghiên cứu AI với sự hỗ trợ của VBA

24/12/27 4:30

Godot GmbH (Vienna, Áo), cơ sở R&D tại Châu Âu của Godot (Kobe, Tỉnh Hyogo), đã được chọn cho chương trình "Tài trợ đổi mới" của VBA.

đọc thêm

Tầm nhìn & Shikigaku, Arosal Investments

24/12/27 4:30

Vision Platform (Minato-ku, Tokyo) và Shikigaku (Shinagawa-ku, Tokyo) đã công bố đầu tư vào Arosal Technology (Minato-ku, Tokyo).

đọc thêm

Hợp tác phát triển đại lý AI AVILEN Otsuka Shokai

24/12/27 4:30

AVILEN (Chuo-ku, Tokyo) và Otsuka Shokai (Chiyoda-ku, Tokyo) đã bắt tay vào phát triển chung một tác nhân AI có thể tận dụng tối đa Generative AI) tạo ra.

đọc thêm

Thông báo giảm giá phiên bản giới hạn Nothing Lucky Bag 2025

24/12/27 4:30

Nothing (London) thông báo sẽ bán "Nothing Fukubukuro 2025" trong thời gian có hạn từ ngày 2 đến ngày 5 tháng 1 năm 2025.

đọc thêm