Chú thích ảnh dựa vào việc khai thác mối quan hệ giữa các đối tượng trong ảnh

Authors

  • Thịnh Nguyễn Văn Trường Đại học Sư phạm TP. Hồ Chí Minh
  • Đoan Đàng Huỳnh Khánh
  • Như Bùi Nguyễn Quỳnh
  • Long Trần Quốc
  • Khánh Lê Văn
  • Quyên Trần Tú

Abstract

Bài toán chú thích ảnh tự động đóng vai trò quan trọng trong việc kết nối thông tin thị giác với ngôn ngữ tự nhiên. Tuy nhiên, nhiều mô hình hiện nay vẫn còn hạn chế trong việc biểu diễn đầy đủ ngữ nghĩa do chưa khai thác hiệu quả các mối quan hệ giữa đối tượng trong ảnh. Bài báo này đề xuất một mô hình mới kết hợp đặc trưng vùng đối tượng với thông tin quan hệ được biểu diễn thông qua đồ thị cảnh. Cụ thể, chúng tôi sử dụng RelTR để phát hiện bộ ba quan hệ và Graph Transformer để ánh xạ đồ thị thành véc-tơ ngữ nghĩa. Biểu diễn tích hợp sau đó được đưa vào bộ giải mã LSTM nhằm sinh ra chuỗi mô tả ảnh chính xác và giàu thông tin. Kết quả thực nghiệm trên MS COCO và Flickr30K cho thấy phương pháp đề xuất đạt hiệu suất vượt trội so với nhiều nghiên cứu gần đây, qua các độ đo BLEU, METEOR và CIDEr. Nghiên cứu này góp phần khẳng định tiềm năng của việc tích hợp thông tin quan hệ vào mô hình chú thích ảnh, hướng đến nâng cao độ chính xác và khả năng diễn đạt trong mô tả sinh ra.

Published

27-10-2025

How to Cite

Nguyễn Văn, T., Đàng Huỳnh Khánh, Đoan, Bùi Nguyễn Quỳnh, N., Trần Quốc, L., Lê Văn, K., & Trần Tú, Q. (2025). Chú thích ảnh dựa vào việc khai thác mối quan hệ giữa các đối tượng trong ảnh. HUFLIT Journal of Science, 9(3), 25. Retrieved from https://hjs.huflit.edu.vn/index.php/hjs/article/view/273

Issue

Section

Science and Technology

Categories

Most read articles by the same author(s)