Chú thích ảnh cho người khiếm thị sử dụng Transformer

Thịnh Nguyễn Văn; Khiêm Nguyễn Thiên; Đạt Đỗ Đức; Trí Nguyễn Ngọc Hoài; Thịnh Võ Văn; Thích Văn Thành

Các tác giả

Nguyễn Văn Thịnh Trường Đại học Sư phạm TP. Hồ Chí Minh
Nguyễn Thiên Khiêm Trường Đại học Sư phạm TP. HCM
Đỗ Đức Đạt Trường Đại học Sư phạm TP. HCM
Nguyễn Ngọc Hoài Trí Trường Đại học Sư phạm TP. HCM
Võ Văn Thịnh Trường Đại học Sư phạm TP. HCM
Văn Thành Thích Trường Đại học Sư phạm TP. HCM

Từ khóa:

Chú thích ảnh tự động, mô hình Encoder-Decoder, Swin Transformer, Transformer Decoder, ứng dụng hỗ trợ người khiếm thị

Tóm tắt

Suy giảm thị lực ảnh hưởng đến hàng triệu người trên thế giới, gây khó khăn trong việc tiếp cận thông tin trực quan. Với sự phát triển của thiết bị di động, đặc biệt là nền tảng Android, các giải pháp chuyển đổi hình ảnh thành mô tả âm thanh đang trở nên phổ biến. Tuy nhiên, việc tạo ra các mô tả chính xác, giàu ngữ cảnh và phù hợp với thiết bị di động vẫn là một thách thức. Nghiên cứu này đề xuất một mô hình chú thích ảnh dựa trên kiến trúc encoder–decoder, kết hợp Swin Transformer để trích xuất đặc trưng hình ảnh và Transformer Decoder để sinh chú thích. Mô hình được huấn luyện trên các tập dữ liệu chuẩn MS COCO, Flickr30k và tinh chỉnh với dữ liệu tiếng Việt KTVIC. Thực nghiệm cho thấy mô hình đạt hiệu suất cao trên các độ đo BLEU, METEOR và CIDEr. Bên cạnh mô hình, chúng tôi xây dựng một ứng dụng Android tích hợp chức năng chú thích ảnh và chuyển văn bản thành giọng nói, hỗ trợ người khiếm thị tiếp cận thông tin hình ảnh theo thời gian thực, hoạt động ổn định với tốc độ xử lý phù hợp trong điều kiện sử dụng thực tế. Kết quả này cho thấy tiềm năng trong việc cải thiện khả năng tiếp cận thông tin trực quan cho cộng đồng người khiếm thị.

Chú thích ảnh cho người khiếm thị sử dụng Transformer

Các tác giả

Từ khóa:

Tóm tắt

Tải xuống

Đã Xuất bản

Cách trích dẫn

Số

Chuyên mục

##category.category##

Các bài báo được đọc nhiều nhất của cùng tác giả

Các bài báo tương tự

Trang bìa

Ngôn ngữ

Thông tin