本研究利用 GPT-2 生成人工数据增广样本,探究种子数据对生成样本和分类器性能的影响,结果表明在有限的标签实例下将 GPT-2 微调可以实现稳定的分类性能改进,而通过领域专家选择指导此过程可实现进一步提高的效果,这为结合生成模型和主动学习提供了有趣的研究方向。
Nov, 2021
本研究探索了数据增强技术对文字分类的影响,使用多种数据增强技术,包括过采样、易用数据增强、反向翻译、灰度缩放以及一种少样本学习的方法 PTE。结果表明,数据增强技术对模型性能只有轻微且不一致的改进,少数同义词替换可以提高模型性能,灰度缩放需要进一步研究,PTE 的表现优于监督学习,尤其是在类别容易分离的情况下。
Mar, 2023
本研究评估了自然语言文本生成器在多个与安全相关的文本分类任务中填补不足的数据差距方面的应用,并考虑了训练集中不均衡类别的影响。通过使用三种针对冒犯性语言检测、评论欺诈检测和短信垃圾检测的最新分类器进行评估,我们发现使用 GPT-3 数据增强策略训练的模型优于未使用增强和使用常见数据增强策略训练的模型;特别是在已知阳性样本严重不足的情况下,GPT-3 数据增强策略带来了显著的好处。
Oct, 2023
本文研究了不同的文本扩充方法在分类应用中的影响,通过使用包括社交媒体和新闻文章在内的三个数据集,我们发现基于 Word2vec 的文本扩充是一种可行的选择,并且使用 mixup 可以进一步提高性能,并降低过拟合的影响。同时,通过翻译服务进行往返翻译的效果不如其他方法好,并且成本较高,适用性较差。
Jul, 2019
通过少量文本样本的文本增强和使用循环一致性作为目标实现弱监督训练范式在数据到文本生成中的有效性。
Feb, 2021
本文旨在提高机器学习分类系统的泛化能力,通过对数据进行转换的方式来人工创建训练数据,从而增强数据的多样性,该文章就在「文本分类」中,对数据增强方法及其应用目标做了详细概述与分类,最终针对相关领域,提出建设性思路方向。
Jul, 2021
本论文通过系统研究,比较了八种不同的数据增强技术对有限标注数据下毒性语言分类器的性能影响,结果表明包括 GPT-2 生成的语句在内的三种数据增强技术能显著提升浅层分类器的表现,与 BERT 相比表现相近。同时讨论了性能和计算开销之间的相互影响,以探讨在不同约束条件下技术选择的影响。
Sep, 2020
提出了自适应数据增强(SPA)方法,自动和动态地选择适合的数据增强样本来训练神经网络,从而改善泛化性能,特别是在训练样本数量较少时。实验结果表明,该方法优于 RandAugment 方法。
Oct, 2020
通过使用 SUMMaug,一种简单但有效的基于摘要的数据增强方法,我们能够解决预训练语言模型在理解长文本(如文档)时遇到的数据稀疏问题,并在文档分类任务中取得了稳健性和准确性上的优势。
Dec, 2023
本研究提出 BOOSTAUG,这个基于预训练语言模型的文本增强方法重点在于增强实例过滤,而不是生成,解决现有文本增强方法中的性能下降和特征空间漂移等问题。结果表明,在句子级文本分类和基于方面的情感分类上,BOOSTAUG 均取得了最先进的性能,该方法是灵活的,可以改进现有的增强方法。
Oct, 2022