Chú thích ảnh dựa vào việc khai thác mối quan hệ giữa các đối tượng trong ảnh

Các tác giả

  • Nguyễn Văn Thịnh Trường Đại học Sư phạm TP. Hồ Chí Minh
  • Đàng Huỳnh Khánh Đoan
  • Bùi Nguyễn Quỳnh Như
  • Trần Quốc Long
  • Lê Văn Khánh
  • Trần Tú Quyên

Tóm tắt

Bài toán chú thích ảnh tự động đóng vai trò quan trọng trong việc kết nối thông tin thị giác với ngôn ngữ tự nhiên. Tuy nhiên, nhiều mô hình hiện nay vẫn còn hạn chế trong việc biểu diễn đầy đủ ngữ nghĩa do chưa khai thác hiệu quả các mối quan hệ giữa đối tượng trong ảnh. Bài báo này đề xuất một mô hình mới kết hợp đặc trưng vùng đối tượng với thông tin quan hệ được biểu diễn thông qua đồ thị cảnh. Cụ thể, chúng tôi sử dụng RelTR để phát hiện bộ ba quan hệ và Graph Transformer để ánh xạ đồ thị thành véc-tơ ngữ nghĩa. Biểu diễn tích hợp sau đó được đưa vào bộ giải mã LSTM nhằm sinh ra chuỗi mô tả ảnh chính xác và giàu thông tin. Kết quả thực nghiệm trên MS COCO và Flickr30K cho thấy phương pháp đề xuất đạt hiệu suất vượt trội so với nhiều nghiên cứu gần đây, qua các độ đo BLEU, METEOR và CIDEr. Nghiên cứu này góp phần khẳng định tiềm năng của việc tích hợp thông tin quan hệ vào mô hình chú thích ảnh, hướng đến nâng cao độ chính xác và khả năng diễn đạt trong mô tả sinh ra.

Tải xuống

Đã Xuất bản

27-10-2025

Cách trích dẫn

Nguyễn Văn, T., Đàng Huỳnh Khánh, Đoan, Bùi Nguyễn Quỳnh, N., Trần Quốc, L., Lê Văn, K., & Trần Tú, Q. (2025). Chú thích ảnh dựa vào việc khai thác mối quan hệ giữa các đối tượng trong ảnh. Tạp Chí Khoa học HUFLIT, 9(3), 25. Truy vấn từ https://hjs.huflit.edu.vn/index.php/hjs/article/view/273

Số

Chuyên mục

Khoa học và Công nghệ

##category.category##

Các bài báo được đọc nhiều nhất của cùng tác giả