Oct, 2023

特征选择与超参数优化的改进遗传算法:垃圾邮件预测中的 XGBoost 案例

TL;DR近期,网上社交网络的垃圾邮件引起了研究和商业界的关注。本文提出了一种改进的遗传算法用于同时减少维度和超参数优化,针对不平衡数据集。该算法使用极限梯度提升分类器对推文数据集进行特征空间降维,生成垃圾邮件预测模型,并验证了模型的有效性。实证结果表明,改进的遗传算法在特征选择方面优于 Chi^2 和 PCA 方法,而极限梯度提升在垃圾邮件预测方面优于包括基于 BERT 的深度学习模型在内的许多机器学习算法。此外,该方法还应用于短信垃圾邮件建模并与相关工作进行比较。