在不平衡的文本数据集中使用增强技术是否能有效提高预测结果？

Apr, 2023

在不平衡的文本数据集中使用增强技术是否能有效提高预测结果？

Is augmentation effective to improve prediction in imbalanced text datasets?

Gabriel O. Assunção, Rafael Izbicki, Marcos O. Prates

TL;DR通过研究不均衡数据集，本文提出了不一定需要数据增广，而是可以通过调整分类器截断点来达到和过采样技术相同的效果。这一发现为处理不均衡数据提供了更好的方法选择建议。

Abstract

imbalanced datasets present a significant challenge for machine learning models, often leading to biased predictions. To address this issue, data augmentation techniques are widely used in →

imbalanced datasets machine learning data augmentation classifier cutoffs natural language processing

发现论文，激发创造

文本分类数据增强调查

本文旨在提高机器学习分类系统的泛化能力，通过对数据进行转换的方式来人工创建训练数据，从而增强数据的多样性，该文章就在「文本分类」中，对数据增强方法及其应用目标做了详细概述与分类，最终针对相关领域，提出建设性思路方向。

Jul, 2021

数据增强对自然语言处理的泛化能力是否有所提升？

使用数据增强来鼓励模型更喜欢强特征，并且研究其对于特征学习的影响。在测试中，数据增强通常在起初起到反效果的作用，并且较难取代弱特征的强特征学习效果较差。

Apr, 2020

探索社交媒体语料库上的数据增强方法

本研究探索了数据增强技术对文字分类的影响，使用多种数据增强技术，包括过采样、易用数据增强、反向翻译、灰度缩放以及一种少样本学习的方法 PTE。结果表明，数据增强技术对模型性能只有轻微且不一致的改进，少数同义词替换可以提高模型性能，灰度缩放需要进一步研究，PTE 的表现优于监督学习，尤其是在类别容易分离的情况下。

Mar, 2023

神经 NLP 数据增强

本文概述了当前用于自然语言处理模型的数据增强方法的现状和近期发展，着重介绍了基于神经网络和变换器的方法，讨论了数据增强的实际问题、可能的缓解措施以及未来研究的方向。

Feb, 2023

通过全局增强方法提高短文本分类效果

本文研究了不同的文本扩充方法在分类应用中的影响，通过使用包括社交媒体和新闻文章在内的三个数据集，我们发现基于 Word2vec 的文本扩充是一种可行的选择，并且使用 mixup 可以进一步提高性能，并降低过拟合的影响。同时，通过翻译服务进行往返翻译的效果不如其他方法好，并且成本较高，适用性较差。

Jul, 2019

随机文本扰动的效果有时有效

探究数据增广方法在 NLP 中的效果和可泛化性，通过三个二进制文本匹配分类任务的大规模实验发现，随机文本扰动作为数据增广能给神经分类模型的测试集性能带来正面和负面的影响，具体取决于模型是否足够训练原始训练例子，但这与是否同时或分别应用五个随机文本编辑操作无关，研究强烈暗示随机文本扰动的效果任务特定，而不是普遍积极的。

Sep, 2022

自然语言处理中有限数据学习的数据增强实证调查

本文旨在系统评估了在有限标注数据情境下的 Natural Language Processing（NLP）中数据增强方法的进展和方法景观，总结了包括标记级别增强、句子级别增强、对抗性增强和隐藏空间增强等多种方法并在 11 个数据集上实验，分析了各种方法的适用情境，对 NLP 有限数据学习的挑战和未来方向进行了讨论。

Jun, 2021

强化器还是滤镜？重新思考预训练语言模型在文本分类增强中的作用

本研究提出 BOOSTAUG，这个基于预训练语言模型的文本增强方法重点在于增强实例过滤，而不是生成，解决现有文本增强方法中的性能下降和特征空间漂移等问题。结果表明，在句子级文本分类和基于方面的情感分类上，BOOSTAUG 均取得了最先进的性能，该方法是灵活的，可以改进现有的增强方法。

Oct, 2022

安全分类任务中的数据集扩增文本生成

本研究评估了自然语言文本生成器在多个与安全相关的文本分类任务中填补不足的数据差距方面的应用，并考虑了训练集中不均衡类别的影响。通过使用三种针对冒犯性语言检测、评论欺诈检测和短信垃圾检测的最新分类器进行评估，我们发现使用 GPT-3 数据增强策略训练的模型优于未使用增强和使用常见数据增强策略训练的模型；特别是在已知阳性样本严重不足的情况下，GPT-3 数据增强策略带来了显著的好处。

Oct, 2023

探究数据增强在不平衡数据中的作用

本研究通过实验检验了数据增强对神经网络、支持向量机和逻辑回归模型的影响，发现它可以帮助模型更好地泛化，在处理不平衡数据分类问题时效果显著。其中一个机理是通过促进数据的差异性，使得机器学习模型能够将数据的变化与标签关联起来，从而提高了模型的泛化能力。

Apr, 2023