Khai thác tập mục hữu ích cao từ các luồng dữ liệu dựa trên di truyền
Từ khóa:
khai thác tập mục hữu ích cao; luồng dữ liệu; bảng băm; di truyền; cửa sổ trượtTóm tắt
Khai thác tập mục hữu ích cao (HUIM) từ các luồng dữ liệu với thời gian và không gian giới hạn là một nhiệm vụ đầy thách thức. Các thuật toán truyền thống thường phải quét dữ liệu nhiều lần và sử dụng các cấu trúc dữ liệu phức tạp để kết nối, lưu trữ và cập nhật thông tin. Hơn nữa, việc mất các tập mục do các thuật toán heuristic gây ra và việc đánh giá các tập mục trùng lặp được tạo ra bởi các lô dữ liệu thông thường đều góp phần làm cho thuật toán kém hiệu quả về thời gian và không gian. Để giải quyết những vấn đề này, chúng tôi đề xuất một thuật toán mới dựa trên giải thuật di truyền (GA) để khai thác các tập mục có giá trị cao từ luồng dữ liệu, được gọi là HUIM_DS_GA, nhằm giải quyết hiệu quả vấn đề không gian lưu trữ hạn chế. Thuật toán HUIM_DS_GA thiết kế một chiến lược cập nhật nhóm mới, giúp tăng tốc độ hội tụ và giảm thiểu mất mát các tập mục quan trọng. Ngoài ra, chúng tôi đề xuất chiến lược lưu trữ bảng băm để tránh việc đánh giá các tập mục trùng lặp, từ đó cải thiện hiệu quả thực thi của thuật toán. Các thử nghiệm trên tập dữ liệu thực tế và dữ liệu tổng hợp cho thấy thuật toán hoạt động hiệu quả, giảm đáng kể lượng bộ nhớ tiêu thụ mà vẫn giữ được khả năng mở rộng tốt hơn so với các phương pháp trước đây.