Chú thích ảnh cho người khiếm thị sử dụng Transformer
Từ khóa:
Chú thích ảnh tự động, mô hình Encoder-Decoder, Swin Transformer, Transformer Decoder, ứng dụng hỗ trợ người khiếm thịTóm tắt
Suy giảm thị lực ảnh hưởng đến hàng triệu người trên thế giới, gây khó khăn trong việc tiếp cận thông tin trực quan. Với sự phát triển của thiết bị di động, đặc biệt là nền tảng Android, các giải pháp chuyển đổi hình ảnh thành mô tả âm thanh đang trở nên phổ biến. Tuy nhiên, việc tạo ra các mô tả chính xác, giàu ngữ cảnh và phù hợp với thiết bị di động vẫn là một thách thức. Nghiên cứu này đề xuất một mô hình chú thích ảnh dựa trên kiến trúc encoder–decoder, kết hợp Swin Transformer để trích xuất đặc trưng hình ảnh và Transformer Decoder để sinh chú thích. Mô hình được huấn luyện trên các tập dữ liệu chuẩn MS COCO, Flickr30k và tinh chỉnh với dữ liệu tiếng Việt KTVIC. Thực nghiệm cho thấy mô hình đạt hiệu suất cao trên các độ đo BLEU, METEOR và CIDEr. Bên cạnh mô hình, chúng tôi xây dựng một ứng dụng Android tích hợp chức năng chú thích ảnh và chuyển văn bản thành giọng nói, hỗ trợ người khiếm thị tiếp cận thông tin hình ảnh theo thời gian thực, hoạt động ổn định với tốc độ xử lý phù hợp trong điều kiện sử dụng thực tế. Kết quả này cho thấy tiềm năng trong việc cải thiện khả năng tiếp cận thông tin trực quan cho cộng đồng người khiếm thị.
 
						 
							
