ỨNG DỤNG PHÂN TÍCH VÀ TIỀN XỬ LÝ DỮ LIỆU TRONG PYTHON VÀO BÀI TOÁN DỰ ĐOÁN GIÁ NHÀ
Từ khóa:
Dự đoán giá nhà, phân tích dữ liệu, tiền xử lý dữ liệu, Support Vector Regressor, Random Forest Regressor, PythonTóm tắt
Bài toán dự đoán là một trong những bài toán quan trọng và có ứng dụng rộng rãi nhất trong lĩnh vực máy học. Nó đóng vai trò nền tảng cho nhiều ứng dụng quan trọng trong đời sống con người, từ những lĩnh vực quen thuộc như dự báo thời tiết, dự đoán giá cả đến những lĩnh vực phức tạp hơn như chẩn đoán bệnh, phát hiện gian lận, và lái xe tự động. Bài toán dự đoán tập trung vào việc dự đoán kết quả của một sự kiện hoặc một biến số trong tương lai dựa trên dữ liệu lịch sử bằng cách tự động học dữ liệu và xây dựng mô hình dự đoán. Bài báo này tập trung vào việc xây dựng mô hình dự đoán giá nhà ở khu vực thành phố Hồ Chí Minh. Thông qua áp dụng các kỹ thuật phân tích và tiền xử lý dữ liệu trên các thư viện của ngôn ngữ lập trình Python bao làm sạch dữ liệu, xử lý giá trị thiếu, giá trị trùng, giá trị ngoại lai, mã hóa biến phân loại, chuẩn hóa dữ liệu, trích chọn đặc trưng, giảm chiều dữ liệu. Sau đó, huấn luyện các mô hình máy học để dự đoán giá nhà thông qua phương pháp Support Vector Regressor (SVR) và Random Forest Regressor (RFR). Kết quả thực nghiệm cho thấy RFR có khả năng nắm bắt các mối quan hệ phức tạp và phi tuyến tính, ít bị ảnh hưởng bởi các giá trị ngoại lai và nhiễu, và có hiệu suất cao hơn so với SVR.