文本分类的 12 种机器学习模型的流程和比较研究

Apr, 2022

文本分类的 12 种机器学习模型的流程和比较研究

A pipeline and comparative study of 12 machine learning models for text classification

Annalisa Occhipinti, Louis Rogers, Claudio Angione

TL;DR本文介绍了一个基于机器学习文本分类器的新技术管道，并应用于公共垃圾邮件语料库中，优化参数选择和改善预处理阶段中特定方法的模型表现，评估了不同评估指标，如精确度，召回率等，最终发现可在 Enron 数据集上实现 94％的 F-Score，得出关键词包括自然语言处理、垃圾邮件过滤。

Abstract

Text-based communication is highly favoured as a communication method, especially in business environments. As a result, it is often abused by sending malicious messages, e.g., spam emails, to deceive users into relaying personal information, including online accounts credentials or banking details. For this reason, many →

text classification machine learning spam filtering enron dataset natural language processing

发现论文，激发创造

使用 spaCy 构建有效的电子邮件垃圾邮件分类模型

本研究使用 spaCy 自然语言处理库和三种机器学习算法，其中包括朴素贝叶斯（ Naive Bayes）、决策树 C45 和多层感知器（MLP），来检测从 Gmail 服务中收集的垃圾邮件，并发现多层感知器（MLP）算法的准确率达到了 96％。

Mar, 2023

利用凝聚层次聚类和基于主题的方法对垃圾邮件进行分类

基于主题的方法用于将垃圾邮件分类为多个类别，作者提出了两个新数据集，对其进行了标记，并评估了不同特征表示技术和分类器的性能。实验结果表明，英语数据集的最佳性能来自使用 TF-IDF 和逻辑回归，而西班牙语数据集的最佳性能来自使用 TF-IDF 和朴素贝叶斯。

Feb, 2024

利用自然语言处理技术对电话网络进行短信垃圾检测和分类以打击滥用行为

提出了利用自然语言处理和机器学习模型（特别是 BERT）进行短信垃圾检测和分类的方法，结果显示使用朴素贝叶斯分类器 + BERT 模型在测试数据集上实现了最高 97.31% 的准确率和最快 0.3 秒的执行时间，从而在短信垃圾检测效率和误报率方面有显著的改进。该模型为对抗短信垃圾提供了有价值的解决方案，不仅保护了用户的隐私，还帮助网络提供商有效识别和屏蔽短信垃圾消息。

Jun, 2024

将电子邮件分类为人类与机器类别

该研究提出利用深度学习模型对电子邮件按主题分类，使用四个 CNN 模型来提高模型性能和精确度，进而将模型应用于 Yahoo 邮件系统中。

Dec, 2021

使用机器学习和基于网络的算法进行意见垃圾检测的新方法

本研究提出一种新方法将机器学习与消息传递算法相结合，采用主动学习方式进行标签采样，用于判别评论者是垃圾评论者还是正常评论者，并在三大真实数据集中进行实验，证明其在机器学习方法和标签数据较少情况下性能优越。

May, 2022

使用机器学习模型对文本进行分类并确定对话偏移

该研究旨在使用自然语言特征提取方法在机器学习中，将朴素贝叶斯、逻辑回归和支持向量机等基本模型用于检测讨论线路偏离主题时教师必须介入的情况，从而实现文本分类和语义分析。

Nov, 2022

使用机器学习和头部信息进行电子邮件异常检测

此研究提出提取并选择电子邮件数据集的特征，利用多类和单类异常检测方法可靠地检测垃圾邮件和网络钓鱼，其中只利用电子邮件头信息即可实现高达 97％和 99％的准确度评分。

Mar, 2022

电子邮件反垃圾邮件过滤的堆叠分类器

本文通过实证评估了一种称为堆叠泛化的分类器组合方案，将其应用于反垃圾邮件过滤的情境中，证明堆叠泛化能够提高自动化诱导的反垃圾邮件过滤器的效率，并且此类过滤器可以应用于实际应用中。

Jun, 2001

文本分类算法综述

本研究讨论了文本分类算法的概述，包括不同的文本特征提取、降维方法、现有算法和技术、评估方法，并探讨了每种技术的限制和在实际问题中的应用。

Apr, 2019

在线毒性检测的机器学习套件

本文使用数据科学的现代工具将原始文本转化成关键特征，并使用阈值法或学习算法对其进行分类以监控具有攻击性的网络对话，通过系统评估 62 个分类器，从 19 个主要算法组中抽取特征并分析其准确性及相对执行时间。在语法、情感、情绪以及离群字典的 28 个特征中，一个简单的脏词列表被证明是最有预测性的评价有攻击性评论的方法，其中基于树的算法提供最透明易懂的规则，并排列特征的预测贡献。

Oct, 2018