Nhận dạng và sửa lỗi ký tự quang học
Abstract
Hệ thống nhận dạng ký tự quang học (OCR) giúp nhận diện các ký tự nằm trong tài liệu hình ảnh. Tuy nhiên, hình ảnh kém chất lượng và những hạn chế của kỹ thuật phát hiện và làm sạch lỗi văn bản dẫn đến các kết quả văn bản không chính xác. Để nâng cao chất lượng đầu ra của văn bản, trong bài báo này, tôi đề xuất một cách tiếp cận mới về phát hiện và sửa lỗi OCR bằng cách sử dụng mô hình học máy kết hợp BERT và seq2seq, sau đó sử dụng thuật toán tính khoảng cách để giải quyết các vấn đề tối ưu hóa. Thông qua việc cài đặt hiệu quả các tham số thuật toán, mô hình của tôi có thể được thực hiện với việc tạo ứng viên chất lượng cao và sửa lỗi. Tôi huấn luyện mô hình trên tập dữ liệu với 1000 hình ảnh thu thập từ google, sau đó cũng xây dựng một web để thử nghiệm. Kết quả thử nghiệm cho thấy phương pháp được đề xuất vượt trội hơn các phương pháp truyền thống.