垃圾网址的机器学习分类方法

Sep, 2023

Classification of Spam URLs Using Machine Learning Approaches

Omar Husni Odeh, Anas Arram, Murad Njoum

TL;DR使用机器学习模型对 URL 进行分类，研究发现 bagging 方法在垃圾邮件识别方面具有 96.5% 的准确率。

Abstract

The internet is used by billions of users daily because it offers fast and free communication tools and platforms. Nevertheless, with this significant increase in usage, huge amounts of spam are generated every s

internet spam machine learning models urls bagging

发现论文，激发创造

使用机器学习和基于网络的算法进行意见垃圾检测的新方法

本研究提出一种新方法将机器学习与消息传递算法相结合，采用主动学习方式进行标签采样，用于判别评论者是垃圾评论者还是正常评论者，并在三大真实数据集中进行实验，证明其在机器学习方法和标签数据较少情况下性能优越。

May, 2022

文本分类的 12 种机器学习模型的流程和比较研究

本文介绍了一个基于机器学习文本分类器的新技术管道，并应用于公共垃圾邮件语料库中，优化参数选择和改善预处理阶段中特定方法的模型表现，评估了不同评估指标，如精确度，召回率等，最终发现可在 Enron 数据集上实现 94％的 F-Score，得出关键词包括自然语言处理、垃圾邮件过滤。

Apr, 2022

使用 spaCy 构建有效的电子邮件垃圾邮件分类模型

本研究使用 spaCy 自然语言处理库和三种机器学习算法，其中包括朴素贝叶斯（ Naive Bayes）、决策树 C45 和多层感知器（MLP），来检测从 Gmail 服务中收集的垃圾邮件，并发现多层感知器（MLP）算法的准确率达到了 96％。

Mar, 2023

基于网络的在线社交媒体评论垃圾检测框架 NetSpam

利用映射垃圾邮件检测程序为网络中的分类问题的异构信息网络，提高了垃圾邮件特征的重要性，证明该方法在 Yelp 和 Amazon 等真实评论数据集上优于现有方法，其中除其他类别外，评论行为类别的特征表现得更好。

Mar, 2017

利用凝聚层次聚类和基于主题的方法对垃圾邮件进行分类

基于主题的方法用于将垃圾邮件分类为多个类别，作者提出了两个新数据集，对其进行了标记，并评估了不同特征表示技术和分类器的性能。实验结果表明，英语数据集的最佳性能来自使用 TF-IDF 和逻辑回归，而西班牙语数据集的最佳性能来自使用 TF-IDF 和朴素贝叶斯。

Feb, 2024

恶意广告 URL 检测框架的对抗性攻击分析

本文讨论了利用机器学习方法检测恶意广告链接的问题，提出了一种使用多种特征并结合不同机器学习算法的检测系统，并实现了一种基于 K-means 算法的数据聚类方法以及对决策树模型的攻击形式。

Apr, 2022

使用深度学习进行垃圾评论检测

本文介绍了利用深度学习方法来检测虚假的评论，并提出了使用多层感知器（MLP）、卷积神经网络（CNN）和长短时记忆（LSTM）的变体等方法，同时也应用了传统的机器学习分类器，如朴素贝叶斯（NB）、K 近邻（KNN）和支持向量机（SVM），并对两种不同分类器的性能进行了比较。

Nov, 2022

利用自然语言处理技术对电话网络进行短信垃圾检测和分类以打击滥用行为

提出了利用自然语言处理和机器学习模型（特别是 BERT）进行短信垃圾检测和分类的方法，结果显示使用朴素贝叶斯分类器 + BERT 模型在测试数据集上实现了最高 97.31% 的准确率和最快 0.3 秒的执行时间，从而在短信垃圾检测效率和误报率方面有显著的改进。该模型为对抗短信垃圾提供了有价值的解决方案，不仅保护了用户的隐私，还帮助网络提供商有效识别和屏蔽短信垃圾消息。

Jun, 2024

通过深度学习学习 URL 表达以进行恶意 URL 检测的 URLNet

本文介绍 URLNet，一种基于端到端深度学习的框架，可直接从 URL 中学习非线性嵌入以对恶意 URL 进行检测。通过应用卷积神经网络来学习 URL 字符和单词的嵌入，该方法允许模型捕捉不同类型的语义信息，并通过高级词嵌入来解决任务中出现的罕见词问题。在大规模数据集上进行的实验表明，该方法优于现有方法，可显著提高模型性能。

Feb, 2018

基于网格搜索方法的优化 Hist Gradient Boosting 分类器的恶意 URL 检测

为了检测恶意网站的风险，我们提出利用基于机器学习的技术，通过对数据输入、恶意网站、机器学习技术和网站检测等关键词进行分析，并优化算法，最终通过多种指标对模型进行评估，实验结果表明 Hist Gradient Boosting Classifier (HGBC) 在各项指标上表现最好。

Jun, 2024