5 Mining closed high-utility frequent sequential patterns based on a genetic algorithm
Tóm tắt
Khai thác các mẫu tuần tự có lợi ích cao phổ biến đóng (Frequent Closed High-Utility Sequential Patterns– FCHUSPs) là một bài toán quan trọng trong khai phá dữ liệu, với nhiều ứng dụng thực tiễn như phân tích hành vi khách hàng, tối ưu chuỗi cung ứng và marketing. Tuy nhiên, quá trình khai thác phải đối mặt với không gian tìm kiếm khổng lồ và chi phí tính toán cao, đặc biệt khi ngưỡng đầu vào thấp hoặc dữ liệu có quy mô lớn. Trong bài báo này, chúng tôi đề xuất một phương pháp khai thác FCHUSPs dựa trên thuật giải di truyền (Genetic Algorithm– GA), trong đó mỗi cá thể được biểu diễn bằng cấu trúc bitarray nhằm tối ưu hóa bộ nhớ và thao tác di truyền. Để nâng cao hiệu quả, quá trình tính toán độ thích nghi được thực hiện song song bằng PySpark MapReduce, kết hợp với hashtable để kiểm tra tính phổ biến đóng của mẫu. Thuật toán đề xuất, gọi là PFCloHUS_QUANTITY_GA_SS, đã được triển khai và đánh giá trên nhiều tập dữ liệu thực nghiệm. Kết quả cho thấy phương pháp không chỉ rút ngắn đáng kể thời gian thực thi so với các giải pháp truyền thống mà còn đảm bảo độ chính xác trong việc khai thác các mẫu tuần tự có lợi ích cao phổ biến đóng.
