Thuật toán khai thác mẫu phổ biến hiệu quả trên cây FP-Tree
Abstract
Khai thác mẫu phổ biến là bài toán quan trọng trong lĩnh vực khai thác dữ liệu. Mẫu phổ biến được ứng dụng trong nhiều lĩnh vực như hệ thống bán hàng, truy tìm mẫu thâm nhập hệ thống, xác định mẫu lặp lại trong phân tích gen di truyền, … Đã có rất nhiều thuật toán được đề xuất để khai thác mẫu phổ biến. Các phương pháp đã đề xuất đa phần sử dụng chiến lượt phát sinh mẫu và kiểm thử. Do đó, xuất hiện rất nhiều mẫu cần phải kiểm tra. Bên cạnh đó, việc phát sinh mẫu sẽ dẫn đến trường hợp các mẫu phát sinh không có trong cơ sở dữ liệu. Bài viết này đề xuất một phương pháp khai thác hiệu quả dựa trên cấu trúc dữ liệu FP-Tree giúp giảm số lượng mẫu phát sinh trong quá trình khai thác. Kết quả thực nghiệm cho thấy hiệu quả của thuật toán tốt hơn so với một số phương pháp hiện có.