垃圾网址的机器学习分类方法
本研究提出一种新方法将机器学习与消息传递算法相结合,采用主动学习方式进行标签采样,用于判别评论者是垃圾评论者还是正常评论者,并在三大真实数据集中进行实验,证明其在机器学习方法和标签数据较少情况下性能优越。
May, 2022
本文介绍了一个基于机器学习文本分类器的新技术管道,并应用于公共垃圾邮件语料库中,优化参数选择和改善预处理阶段中特定方法的模型表现,评估了不同评估指标,如精确度,召回率等,最终发现可在 Enron 数据集上实现 94%的 F-Score,得出关键词包括自然语言处理、垃圾邮件过滤。
Apr, 2022
本研究使用 spaCy 自然语言处理库和三种机器学习算法,其中包括朴素贝叶斯( Naive Bayes)、决策树 C45 和多层感知器(MLP),来检测从 Gmail 服务中收集的垃圾邮件,并发现多层感知器(MLP)算法的准确率达到了 96%。
Mar, 2023
利用映射垃圾邮件检测程序为网络中的分类问题的异构信息网络,提高了垃圾邮件特征的重要性,证明该方法在 Yelp 和 Amazon 等真实评论数据集上优于现有方法,其中除其他类别外,评论行为类别的特征表现得更好。
Mar, 2017
基于主题的方法用于将垃圾邮件分类为多个类别,作者提出了两个新数据集,对其进行了标记,并评估了不同特征表示技术和分类器的性能。实验结果表明,英语数据集的最佳性能来自使用 TF-IDF 和逻辑回归,而西班牙语数据集的最佳性能来自使用 TF-IDF 和朴素贝叶斯。
Feb, 2024
本文讨论了利用机器学习方法检测恶意广告链接的问题,提出了一种使用多种特征并结合不同机器学习算法的检测系统,并实现了一种基于 K-means 算法的数据聚类方法以及对决策树模型的攻击形式。
Apr, 2022
本文介绍了利用深度学习方法来检测虚假的评论,并提出了使用多层感知器(MLP)、卷积神经网络(CNN)和长短时记忆(LSTM)的变体等方法,同时也应用了传统的机器学习分类器,如朴素贝叶斯(NB)、K 近邻(KNN)和支持向量机(SVM),并对两种不同分类器的性能进行了比较。
Nov, 2022
提出了利用自然语言处理和机器学习模型(特别是 BERT)进行短信垃圾检测和分类的方法,结果显示使用朴素贝叶斯分类器 + BERT 模型在测试数据集上实现了最高 97.31% 的准确率和最快 0.3 秒的执行时间,从而在短信垃圾检测效率和误报率方面有显著的改进。该模型为对抗短信垃圾提供了有价值的解决方案,不仅保护了用户的隐私,还帮助网络提供商有效识别和屏蔽短信垃圾消息。
Jun, 2024
本文介绍 URLNet,一种基于端到端深度学习的框架,可直接从 URL 中学习非线性嵌入以对恶意 URL 进行检测。通过应用卷积神经网络来学习 URL 字符和单词的嵌入,该方法允许模型捕捉不同类型的语义信息,并通过高级词嵌入来解决任务中出现的罕见词问题。在大规模数据集上进行的实验表明,该方法优于现有方法,可显著提高模型性能。
Feb, 2018
为了检测恶意网站的风险,我们提出利用基于机器学习的技术,通过对数据输入、恶意网站、机器学习技术和网站检测等关键词进行分析,并优化算法,最终通过多种指标对模型进行评估,实验结果表明 Hist Gradient Boosting Classifier (HGBC) 在各项指标上表现最好。
Jun, 2024