Feb, 2024

利用凝聚层次聚类和基于主题的方法对垃圾邮件进行分类

TL;DR基于主题的方法用于将垃圾邮件分类为多个类别,作者提出了两个新数据集,对其进行了标记,并评估了不同特征表示技术和分类器的性能。实验结果表明,英语数据集的最佳性能来自使用 TF-IDF 和逻辑回归,而西班牙语数据集的最佳性能来自使用 TF-IDF 和朴素贝叶斯。