Evaluating GPT-OSS-20B Model for Hate Speech Detection: Advances in Parameter-Efficient Adaptation
Tóm tắt
Việc phát hiện nội dung thù ghét tiếp tục đặt ra các thách thức về phương pháp do sự mơ hồ trong gán nhãn, sự mất cân bằng lớp và và yêu cầu phân biệt chi tiết giữa các biểu đạt mang tính xúc phạm và mang tính thù hận. Nghiên cứu này thực hiện một phương pháp điều chỉnh tiết kiệm tham số cho một mô hình ngôn ngữ lớn quy mô 20 tỷ tham số nhằm thực hiện phân loại nội dung thù ghét ba lớp. Cách tiếp cận đề xuất hợp nhất các quyết định của người gán nhãn thành một nhãn duy nhất cho mỗi mẫu, áp dụng lấy mẫu cân bằng để giảm mức độ thưa thớt của lớp thiểu số, và tích hợp các mẫu chỉ dẫn cùng siêu dữ liệu dựa trên mức độ đồng thuận nhằm ổn định dự đoán trong các trường hợp mơ hồ giữa các lớp. Mô hình sau điều chỉnh được đánh giá đối sánh với các mô hình nền dựa trên transformer encoder và các cấu hình mô hình ngôn ngữ lớn theo hướng prompting. Kết quả cho thấy hệ thống được tinh chỉnh đạt macro F1-score 80.66% và độ chính xác 83.37%, vượt trội hơn so với tất cả các mô hình nền so sánh, với mức cải thiện đặc biệt mạnh ở hạng mục Hate Speech. Phân tích bổ sung về mức sử dụng tính toán cho thấy mô hình được tinh chỉnh vận hành trong điều kiện tài nguyên ở mức vừa phải. Các kết quả này cho thấy điều chỉnh tiết kiệm tham số theo hướng gọn nhẹ là một lựa chọn khả thi cho phân loại nội dung thù ghét chi tiết khi việc finetuning toàn phần các mô hình ngôn ngữ lớn không khả thi.
