通过递归和迭代删除量化停用词生成情感分析

Sep, 2022

通过递归和迭代删除量化停用词生成情感分析

Quantitative Stopword Generation for Sentiment Analysis via Recursive and Iterative Deletion

Daniel M. DiPietro

TL;DR本文提出了一种量化的方法，通过迭代和递归的特征删除算法确定哪些单词可以从经过预训练的变压器词汇表中删除，以在情感分析任务中最小化其性能降级，实验证明通过这种方法生成的停用词列表可以大幅降低数据集的大小，而对模型性能的影响微不足道，因此可以为特定的自然语言处理任务生成高效的停用词集。

Abstract

stopwords carry little semantic information and are often removed from text data to reduce dataset size and improve machine learning model performance. Consequently, researchers have sought to develop techniques

stopwords text data machine learning transformer sentiment analysis

发现论文，激发创造

处理软件工程文档所需的停用词：它们很重要吗？

探讨在软件工程背景下，使用领域特定的停用词表是否可以提高自然语言处理中停用词去除方法的性能表现，并在相关工作的基础上复制实验了三个软件工程研究工具。结果表明，使用领域特定的停用词可以显著提高研究工具的性能，并且 17 个评估指标都显示出更好的性能。

Mar, 2023

改进文本分析和信息检索的 TF-IDF 方法下的马拉地语停用词筛选

我们研究了停用词在马拉地语中的应用，使用 MahaCorpus 数据集中的 2400 万个句子，结合 TF-IDF 方法和人工评估，筛选出具有强大效果的 400 个停用词，并将其应用于文本分类任务。该研究还提出了在资源有限的语言中进行停用词筛选的简单方法。停用词已集成到 mahaNLP 库中，并在此 https URL 上公开提供。

Jun, 2024

技术语言处理中的停用词

本文探讨了在工程应用中，自然语言处理技术在信息检索，索引和主题建模中的应用。作者在此之上介绍了如何挑选出技术语言处理应用中的无意义单词，并编制出一个可供使用的停用词列表。

Jun, 2020

使用带或不带停用词移除的术语加权方法对阿拉伯文本分类的影响

比较了二进制和词频特征加权方法在文本分类中的效果，结果表明，在去除停用词的情况下，词频特征加权方法在准确率、召回率和 F-Measure 方面优于二进制方法，而在精确率方面两种方法的结果非常相似。此外，数据还清楚地表明，使用相同的短语加权方法，去除停用词可以提高分类准确性。

Feb, 2024

移除低频词对 LDA 模型主题质量的影响分析

研究论文通过模拟实验，考察了删除不常见词汇对使用潜在狄利克雷分配估计主题质量的影响，结果表明剪枝是有益的，并且可以消除相当大比例的词汇。

Nov, 2023

文本分类可增强领域无关的停用词提取

该研究通过使用 MasakhaNEWS、African Stopwords Project 和 MasakhaPOS 数据集，针对九种非洲语言和法语，探讨了文本分类在自然语言处理（NLP）中简化停用词提取的作用。研究结果显示，文本分类能够有效识别领域无关的停用词，成功检测率超过 80％，但由于语言差异，某些语言的检测率较低。此外，研究还发现，尽管超过 40％的停用词在不同新闻类别中都有，但只有不到 15％的停用词是某个特定类别独有的。不常见的停用词为文本增添了深度，但它们是否被归类为停用词则取决于上下文。因此，将统计和语言方法相结合可以创建全面的停用词列表，凸显了我们的混合方法的价值。这项研究提升了非洲语言的自然语言处理，并强调了文本分类在停用词提取中的重要性。

Jan, 2024

乌兹别克语停用词检测精度：以 “学校语料库” 为例的案例研究

本文介绍了一种用于评估停用词列表质量的方法，以自动创建技术。该方法在乌兹别克语的自动生成停用词列表上进行了测试，可以应用于相似语言。

Sep, 2022

停用集对文本分类中主动学习停止的影响

本研究探究了不同的停止集选择对不同停止方法的影响，结果表明，停止算法的性能取决于停止集的选择，其中，基于稳定预测的停止方法的性能要强于基于置信度的停止方法，并且原始作者提出的无偏代表性停止集比最近发布的工作中使用的系统偏倚停止集表现更好，这些发现有助于阐明停止方法的这一重要方面的影响，这一方面在最近的发布工作中被忽视了，但对于重要的语义计算应用，如技术辅助审查和文本分类等，它对性能的影响可能很大。

Jan, 2022

利用分类器筛选语料库：以在线清洁能源情感为例的案例研究

本文探讨了如何使用经过预训练和微调的 transformer-based 模型筛选社交媒体数据集中的相关文档，以达到高准确度的目的。该方法的低成本和高性能意味着它对于具有不确定语料库边界的社交媒体数据集可能具有广泛的好处。

May, 2023

基于文本质量的修剪方法用于语言模型的高效训练

本文提出了一种用于对大型未标记 NLP 数据集中的文本质量进行数值评估的新方法，以分配给文本实例一个 “质量分数”。通过提出文本质量度量标准，本文建立了一个框架来识别和消除低质量的文本实例，提高了 LM 模型的训练效率。实验结果表明，通过这种方法，在多个模型和数据集上可以获得显著的训练效果提升，并展示了资源高效的 LM 训练的潜力。例如，在使用 OpenWebText 数据集进行训练时，相对于较少的数据量和较快的训练速度，多个 LM 模型在 14 个下游评估任务上的平均绝对准确性提高了 0.9%，在使用 Wikipedia 数据集时，平均绝对准确性提高了 0.8%。

Apr, 2024