top of page

Generatived (Beta) | Cung cấp tin tức và xu hướng mới nhất về AI sáng tạo

logo.png

Pic2Word: Ánh xạ hình ảnh thành từ để nâng cao khả năng tìm kiếm hình ảnh

Theo Google, sinh viên nghiên cứu Kuniaki Saito và Nhà khoa học nghiên cứu Kihyuk Sohn từ nhóm Google AI của Google Research đã phát triển một hệ thống mới có tên Pic2Word có thể ánh xạ ảnh thành từ để tìm kiếm hình ảnh tổng hợp không cần chụp.

Truy xuất hình ảnh là một tính năng quan trọng của công cụ tìm kiếm và người dùng thường sử dụng hình ảnh hoặc văn bản làm truy vấn để tìm hình ảnh mục tiêu mong muốn. Tuy nhiên, có thể khó mô tả chính xác hình ảnh bằng từ ngữ. Điều này gây ra sự cố khi người dùng tìm kiếm các thuộc tính nhất định trong hình ảnh, chẳng hạn như màu của biểu tượng hoặc màu của chính biểu tượng, có thể khác với những gì họ tìm thấy trên trang web.


Để giải quyết vấn đề này, bài viết này giới thiệu Truy xuất hình ảnh tổng hợp (CIR), cho phép người dùng truy xuất hình ảnh dựa trên các truy vấn kết hợp cả hình ảnh và mẫu văn bản. Mẫu văn bản giải thích cách sửa đổi hình ảnh để khớp chính xác với mục tiêu tìm kiếm dự định. Cách tiếp cận này kết hợp thông tin hình ảnh và văn bản để tìm kiếm hình ảnh chính xác hơn.

Tuy nhiên, các phương pháp CIR hiện tại yêu cầu lượng lớn dữ liệu được dán nhãn, có thể tốn kém và có khả năng khái quát hóa hạn chế cho các bộ dữ liệu khác nhau. Để vượt qua những thách thức này, bài viết này đề xuất một nhiệm vụ mới gọi là truy xuất hình ảnh tổng hợp không chụp (ZS-CIR). Mục tiêu của ZS-CIR là xây dựng một mô hình CIR duy nhất có thể thực hiện nhiều tác vụ CIR khác nhau như định cấu hình đối tượng, chỉnh sửa thuộc tính và chuyển đổi miền mà không cần dựa vào dữ liệu bộ ba được gắn nhãn.

Phương pháp đề xuất đề xuất sử dụng các cặp chú thích ảnh có quy mô lớn và ảnh chưa được gắn nhãn để huấn luyện mô hình truy xuất thay vì dữ liệu được dán nhãn. Cách tiếp cận này hỗ trợ rất nhiều cho việc thu thập dữ liệu và cho phép đào tạo các mô hình trên quy mô lớn.


Hiệu quả của mô hình đã huấn luyện được xác minh thông qua nhiều thử nghiệm khác nhau trên các nhiệm vụ CIR khác nhau. Một hướng nghiên cứu tiềm năng trong tương lai được đề cập trong bài viết là mở rộng việc sử dụng dữ liệu hình ảnh trong nghiên cứu hiện tại để sử dụng dữ liệu chú thích để huấn luyện mạng bản đồ. Sự tiến bộ này hứa hẹn sẽ cải thiện khả năng tìm kiếm hình ảnh và trải nghiệm người dùng trong lĩnh vực tìm kiếm hình ảnh tổng hợp zero-shot.

Chia sẻ bài viết này:

Tin tức mới nhất
Cơ sở Godot Châu Âu, nghiên cứu AI với sự hỗ trợ của VBA

Cơ sở Godot Châu Âu, nghiên cứu AI với sự hỗ trợ của VBA

24/12/27 4:30

Godot GmbH (Vienna, Áo), cơ sở R&D tại Châu Âu của Godot (Kobe, Tỉnh Hyogo), đã được chọn cho chương trình "Tài trợ đổi mới" của VBA.

Tầm nhìn & Shikigaku, Arosal Investments

Tầm nhìn & Shikigaku, Arosal Investments

24/12/27 4:30

Vision Platform (Minato-ku, Tokyo) và Shikigaku (Shinagawa-ku, Tokyo) đã công bố đầu tư vào Arosal Technology (Minato-ku, Tokyo).

Hợp tác phát triển đại lý AI AVILEN Otsuka Shokai

Hợp tác phát triển đại lý AI AVILEN Otsuka Shokai

24/12/27 4:30

AVILEN (Chuo-ku, Tokyo) và Otsuka Shokai (Chiyoda-ku, Tokyo) đã bắt tay vào phát triển chung một tác nhân AI có thể tận dụng tối đa Generative AI) tạo ra.

Thông báo giảm giá phiên bản giới hạn Nothing Lucky Bag 2025

Thông báo giảm giá phiên bản giới hạn Nothing Lucky Bag 2025

24/12/27 4:30

Nothing (London) thông báo sẽ bán "Nothing Fukubukuro 2025" trong thời gian có hạn từ ngày 2 đến ngày 5 tháng 1 năm 2025.

Copyright © 2024 Generatived - All right Reserved.

Chia sẻ bài viết này:

Chia sẻ bài viết này:

Generatived AI Logo

Generatived là dịch vụ cung cấp thông tin và xu hướng chuyên về Generative AI. Chúng tôi sẽ cố gắng hết sức để cung cấp thông tin về thế giới đang thay đổi nhanh chóng.

  • Facebook
  • X

Hãy theo dõi chúng tôi

Ngôn ngữ

Tin tức mới nhất
Cơ sở Godot Châu Âu, nghiên cứu AI với sự hỗ trợ của VBA

Cơ sở Godot Châu Âu, nghiên cứu AI với sự hỗ trợ của VBA

24/12/27 4:30

Godot GmbH (Vienna, Áo), cơ sở R&D tại Châu Âu của Godot (Kobe, Tỉnh Hyogo), đã được chọn cho chương trình "Tài trợ đổi mới" của VBA.

Tầm nhìn & Shikigaku, Arosal Investments

Tầm nhìn & Shikigaku, Arosal Investments

24/12/27 4:30

Vision Platform (Minato-ku, Tokyo) và Shikigaku (Shinagawa-ku, Tokyo) đã công bố đầu tư vào Arosal Technology (Minato-ku, Tokyo).

Hợp tác phát triển đại lý AI AVILEN Otsuka Shokai

Hợp tác phát triển đại lý AI AVILEN Otsuka Shokai

24/12/27 4:30

AVILEN (Chuo-ku, Tokyo) và Otsuka Shokai (Chiyoda-ku, Tokyo) đã bắt tay vào phát triển chung một tác nhân AI có thể tận dụng tối đa Generative AI) tạo ra.

Thông báo giảm giá phiên bản giới hạn Nothing Lucky Bag 2025

Thông báo giảm giá phiên bản giới hạn Nothing Lucky Bag 2025

24/12/27 4:30

Nothing (London) thông báo sẽ bán "Nothing Fukubukuro 2025" trong thời gian có hạn từ ngày 2 đến ngày 5 tháng 1 năm 2025.

bottom of page