通过递归和迭代删除量化停用词生成情感分析
探讨在软件工程背景下,使用领域特定的停用词表是否可以提高自然语言处理中停用词去除方法的性能表现,并在相关工作的基础上复制实验了三个软件工程研究工具。结果表明,使用领域特定的停用词可以显著提高研究工具的性能,并且 17 个评估指标都显示出更好的性能。
Mar, 2023
我们研究了停用词在马拉地语中的应用,使用 MahaCorpus 数据集中的 2400 万个句子,结合 TF-IDF 方法和人工评估,筛选出具有强大效果的 400 个停用词,并将其应用于文本分类任务。该研究还提出了在资源有限的语言中进行停用词筛选的简单方法。停用词已集成到 mahaNLP 库中,并在此 https URL 上公开提供。
Jun, 2024
本文探讨了在工程应用中,自然语言处理技术在信息检索,索引和主题建模中的应用。 作者在此之上介绍了如何挑选出技术语言处理应用中的无意义单词,并编制出一个可供使用的停用词列表。
Jun, 2020
比较了二进制和词频特征加权方法在文本分类中的效果,结果表明,在去除停用词的情况下,词频特征加权方法在准确率、召回率和 F-Measure 方面优于二进制方法,而在精确率方面两种方法的结果非常相似。此外,数据还清楚地表明,使用相同的短语加权方法,去除停用词可以提高分类准确性。
Feb, 2024
该研究通过使用 MasakhaNEWS、African Stopwords Project 和 MasakhaPOS 数据集,针对九种非洲语言和法语,探讨了文本分类在自然语言处理(NLP)中简化停用词提取的作用。研究结果显示,文本分类能够有效识别领域无关的停用词,成功检测率超过 80%,但由于语言差异,某些语言的检测率较低。此外,研究还发现,尽管超过 40%的停用词在不同新闻类别中都有,但只有不到 15%的停用词是某个特定类别独有的。不常见的停用词为文本增添了深度,但它们是否被归类为停用词则取决于上下文。因此,将统计和语言方法相结合可以创建全面的停用词列表,凸显了我们的混合方法的价值。这项研究提升了非洲语言的自然语言处理,并强调了文本分类在停用词提取中的重要性。
Jan, 2024
本文介绍了一种用于评估停用词列表质量的方法,以自动创建技术。该方法在乌兹别克语的自动生成停用词列表上进行了测试,可以应用于相似语言。
Sep, 2022
本研究探究了不同的停止集选择对不同停止方法的影响,结果表明,停止算法的性能取决于停止集的选择,其中,基于稳定预测的停止方法的性能要强于基于置信度的停止方法,并且原始作者提出的无偏代表性停止集比最近发布的工作中使用的系统偏倚停止集表现更好,这些发现有助于阐明停止方法的这一重要方面的影响,这一方面在最近的发布工作中被忽视了,但对于重要的语义计算应用,如技术辅助审查和文本分类等,它对性能的影响可能很大。
Jan, 2022
本文探讨了如何使用经过预训练和微调的 transformer-based 模型筛选社交媒体数据集中的相关文档,以达到高准确度的目的。该方法的低成本和高性能意味着它对于具有不确定语料库边界的社交媒体数据集可能具有广泛的好处。
May, 2023
本文提出了一种用于对大型未标记 NLP 数据集中的文本质量进行数值评估的新方法,以分配给文本实例一个 “质量分数”。通过提出文本质量度量标准,本文建立了一个框架来识别和消除低质量的文本实例,提高了 LM 模型的训练效率。实验结果表明,通过这种方法,在多个模型和数据集上可以获得显著的训练效果提升,并展示了资源高效的 LM 训练的潜力。例如,在使用 OpenWebText 数据集进行训练时,相对于较少的数据量和较快的训练速度,多个 LM 模型在 14 个下游评估任务上的平均绝对准确性提高了 0.9%,在使用 Wikipedia 数据集时,平均绝对准确性提高了 0.8%。
Apr, 2024