Chú thích ảnh cho người khiếm thị sử dụng Transformer

Các tác giả

  • Nguyễn Văn Thịnh Trường Đại học Sư phạm TP. Hồ Chí Minh
  • Nguyễn Thiên Khiêm Trường Đại học Sư phạm TP. HCM
  • Đỗ Đức Đạt Trường Đại học Sư phạm TP. HCM
  • Nguyễn Ngọc Hoài Trí Trường Đại học Sư phạm TP. HCM
  • Võ Văn Thịnh Trường Đại học Sư phạm TP. HCM
  • Thích Văn Thịnh Trường Đại học Sư phạm TP. HCM

Từ khóa:

Chú thích ảnh tự động, mô hình Encoder-Decoder, Swin Transformer, Transformer Decoder, ứng dụng hỗ trợ người khiếm thị

Tóm tắt

Suy giảm thị lực ảnh hưởng đến hàng triệu người trên thế giới, gây khó khăn trong việc tiếp cận thông tin trực quan. Với sự phát triển của thiết bị di động, đặc biệt là nền tảng Android, các giải pháp chuyển đổi hình ảnh thành mô tả âm thanh đang trở nên phổ biến. Tuy nhiên, việc tạo ra các mô tả chính xác, giàu ngữ cảnh và phù hợp với thiết bị di động vẫn là một thách thức. Nghiên cứu này đề xuất một mô hình chú thích ảnh dựa trên kiến trúc encoder–decoder, kết hợp Swin Transformer để trích xuất đặc trưng hình ảnh và Transformer Decoder để sinh chú thích. Mô hình được huấn luyện trên các tập dữ liệu chuẩn MS COCO, Flickr30k và tinh chỉnh với dữ liệu tiếng Việt KTVIC. Thực nghiệm cho thấy mô hình đạt hiệu suất cao trên các độ đo BLEU, METEOR và CIDEr. Bên cạnh mô hình, chúng tôi xây dựng một ứng dụng Android tích hợp chức năng chú thích ảnh và chuyển văn bản thành giọng nói, hỗ trợ người khiếm thị tiếp cận thông tin hình ảnh theo thời gian thực, hoạt động ổn định với tốc độ xử lý phù hợp trong điều kiện sử dụng thực tế. Kết quả này cho thấy tiềm năng trong việc cải thiện khả năng tiếp cận thông tin trực quan cho cộng đồng người khiếm thị.

Tải xuống

Đã Xuất bản

27-10-2025

Cách trích dẫn

Nguyễn Văn, T., Nguyễn Thiên, K., Đỗ Đức, Đạt, Nguyễn Ngọc Hoài, T., Võ Văn, T., & Văn Thịnh, T. (2025). Chú thích ảnh cho người khiếm thị sử dụng Transformer. Tạp Chí Khoa học HUFLIT, 9(3), 14. Truy vấn từ https://hjs.huflit.edu.vn/index.php/hjs/article/view/269

Số

Chuyên mục

Khoa học và Công nghệ

##category.category##

Các bài báo được đọc nhiều nhất của cùng tác giả

Các bài báo tương tự

1 2 3 4 5 6 7 8 9 10 11 12 13 14 > >> 

Bạn cũng có thể bắt đầu một tìm kiếm tương tự nâng cao cho bài báo này.