Chú thích ảnh dựa vào việc khai thác mối quan hệ giữa các đối tượng trong ảnh

Thịnh Nguyễn Văn; Đoan Đàng Huỳnh Khánh; Như Bùi Nguyễn Quỳnh; Long Trần Quốc; Khánh Lê Văn; Quyên Trần Tú

Chú thích ảnh dựa vào việc khai thác mối quan hệ giữa các đối tượng trong ảnh

Các tác giả

Nguyễn Văn Thịnh Trường Đại học Sư phạm TP. Hồ Chí Minh
Đàng Huỳnh Khánh Đoan
Bùi Nguyễn Quỳnh Như
Trần Quốc Long
Lê Văn Khánh
Trần Tú Quyên

Tóm tắt

Bài toán chú thích ảnh tự động đóng vai trò quan trọng trong việc kết nối thông tin thị giác với ngôn ngữ tự nhiên. Tuy nhiên, nhiều mô hình hiện nay vẫn còn hạn chế trong việc biểu diễn đầy đủ ngữ nghĩa do chưa khai thác hiệu quả các mối quan hệ giữa đối tượng trong ảnh. Bài báo này đề xuất một mô hình mới kết hợp đặc trưng vùng đối tượng với thông tin quan hệ được biểu diễn thông qua đồ thị cảnh. Cụ thể, chúng tôi sử dụng RelTR để phát hiện bộ ba quan hệ và Graph Transformer để ánh xạ đồ thị thành véc-tơ ngữ nghĩa. Biểu diễn tích hợp sau đó được đưa vào bộ giải mã LSTM nhằm sinh ra chuỗi mô tả ảnh chính xác và giàu thông tin. Kết quả thực nghiệm trên MS COCO và Flickr30K cho thấy phương pháp đề xuất đạt hiệu suất vượt trội so với nhiều nghiên cứu gần đây, qua các độ đo BLEU, METEOR và CIDEr. Nghiên cứu này góp phần khẳng định tiềm năng của việc tích hợp thông tin quan hệ vào mô hình chú thích ảnh, hướng đến nâng cao độ chính xác và khả năng diễn đạt trong mô tả sinh ra.

Tải xuống

Đã Xuất bản

27-10-2025

Cách trích dẫn

Nguyễn Văn, T., Đàng Huỳnh Khánh, Đoan, Bùi Nguyễn Quỳnh, N., Trần Quốc, L., Lê Văn, K., & Trần Tú, Q. (2025). Chú thích ảnh dựa vào việc khai thác mối quan hệ giữa các đối tượng trong ảnh. Tạp Chí Khoa học HUFLIT, 9(3), 25. Truy vấn từ https://hjs.huflit.edu.vn/index.php/hjs/article/view/273