在不平衡的文本数据集中使用增强技术是否能有效提高预测结果?
本文旨在提高机器学习分类系统的泛化能力,通过对数据进行转换的方式来人工创建训练数据,从而增强数据的多样性,该文章就在「文本分类」中,对数据增强方法及其应用目标做了详细概述与分类,最终针对相关领域,提出建设性思路方向。
Jul, 2021
使用数据增强来鼓励模型更喜欢强特征,并且研究其对于特征学习的影响。在测试中,数据增强通常在起初起到反效果的作用,并且较难取代弱特征的强特征学习效果较差。
Apr, 2020
本研究探索了数据增强技术对文字分类的影响,使用多种数据增强技术,包括过采样、易用数据增强、反向翻译、灰度缩放以及一种少样本学习的方法 PTE。结果表明,数据增强技术对模型性能只有轻微且不一致的改进,少数同义词替换可以提高模型性能,灰度缩放需要进一步研究,PTE 的表现优于监督学习,尤其是在类别容易分离的情况下。
Mar, 2023
本文概述了当前用于自然语言处理模型的数据增强方法的现状和近期发展,着重介绍了基于神经网络和变换器的方法,讨论了数据增强的实际问题、可能的缓解措施以及未来研究的方向。
Feb, 2023
本文研究了不同的文本扩充方法在分类应用中的影响,通过使用包括社交媒体和新闻文章在内的三个数据集,我们发现基于 Word2vec 的文本扩充是一种可行的选择,并且使用 mixup 可以进一步提高性能,并降低过拟合的影响。同时,通过翻译服务进行往返翻译的效果不如其他方法好,并且成本较高,适用性较差。
Jul, 2019
探究数据增广方法在 NLP 中的效果和可泛化性,通过三个二进制文本匹配分类任务的大规模实验发现,随机文本扰动作为数据增广能给神经分类模型的测试集性能带来正面和负面的影响,具体取决于模型是否足够训练原始训练例子,但这与是否同时或分别应用五个随机文本编辑操作无关,研究强烈暗示随机文本扰动的效果任务特定,而不是普遍积极的。
Sep, 2022
本文旨在系统评估了在有限标注数据情境下的 Natural Language Processing(NLP)中数据增强方法的进展和方法景观,总结了包括标记级别增强、句子级别增强、对抗性增强和隐藏空间增强等多种方法并在 11 个数据集上实验,分析了各种方法的适用情境,对 NLP 有限数据学习的挑战和未来方向进行了讨论。
Jun, 2021
本研究提出 BOOSTAUG,这个基于预训练语言模型的文本增强方法重点在于增强实例过滤,而不是生成,解决现有文本增强方法中的性能下降和特征空间漂移等问题。结果表明,在句子级文本分类和基于方面的情感分类上,BOOSTAUG 均取得了最先进的性能,该方法是灵活的,可以改进现有的增强方法。
Oct, 2022
本研究评估了自然语言文本生成器在多个与安全相关的文本分类任务中填补不足的数据差距方面的应用,并考虑了训练集中不均衡类别的影响。通过使用三种针对冒犯性语言检测、评论欺诈检测和短信垃圾检测的最新分类器进行评估,我们发现使用 GPT-3 数据增强策略训练的模型优于未使用增强和使用常见数据增强策略训练的模型;特别是在已知阳性样本严重不足的情况下,GPT-3 数据增强策略带来了显著的好处。
Oct, 2023
本研究通过实验检验了数据增强对神经网络、支持向量机和逻辑回归模型的影响,发现它可以帮助模型更好地泛化,在处理不平衡数据分类问题时效果显著。其中一个机理是通过促进数据的差异性,使得机器学习模型能够将数据的变化与标签关联起来,从而提高了模型的泛化能力。
Apr, 2023