强化器还是滤镜?重新思考预训练语言模型在文本分类增强中的作用
本文研究了不同的文本扩充方法在分类应用中的影响,通过使用包括社交媒体和新闻文章在内的三个数据集,我们发现基于 Word2vec 的文本扩充是一种可行的选择,并且使用 mixup 可以进一步提高性能,并降低过拟合的影响。同时,通过翻译服务进行往返翻译的效果不如其他方法好,并且成本较高,适用性较差。
Jul, 2019
本文提出了一种基于 AutoAugment 的方法来解决文本数据增强中的语义损害问题,并实验证明该方法可以改善现有的增强方法,并增强先进的预训练语言模型。
Feb, 2024
本论文通过系统研究,比较了八种不同的数据增强技术对有限标注数据下毒性语言分类器的性能影响,结果表明包括 GPT-2 生成的语句在内的三种数据增强技术能显著提升浅层分类器的表现,与 BERT 相比表现相近。同时讨论了性能和计算开销之间的相互影响,以探讨在不同约束条件下技术选择的影响。
Sep, 2020
本工程研究了文本数据增强预处理技术,使用了常见的技术,如噪声注入,词法替换和生成的近义词,如后向转换或通过句法树的转换。使用这些技术,通过增加只有五个数据放大因子,已经使得在文本极性预测标准化任务上神经网络的准确度在 4.3% 到 21.6%的范围内获得了不错的提升,而且部分标准深度神经网络架构也都进行了测试。
Dec, 2018
本文旨在提高机器学习分类系统的泛化能力,通过对数据进行转换的方式来人工创建训练数据,从而增强数据的多样性,该文章就在「文本分类」中,对数据增强方法及其应用目标做了详细概述与分类,最终针对相关领域,提出建设性思路方向。
Jul, 2021
本研究提出了一种名为 RankAug 的文本排名方法,通过多样性的词汇和句法,检测和过滤出最具相似意义的顶级增强文本,从而改善生成数据过滤在自然语言理解任务中的性能,特别是意图和情感分类。通过对多个数据集进行实验,我们证明了过滤技术的精心选择可以显著提高少数派分类的准确性,提高了多达 35%。
Nov, 2023
本文提出了一种基于 ChatGPT 的文本数据增强方法(AugGPT),通过将训练样本中的每个句子重新表达为多个概念上相似但语义上不同的样本,提高了数据不变性和样本大小,并在少样本学习文本分类任务上取得了优越性能。
Feb, 2023
本研究评估了自然语言文本生成器在多个与安全相关的文本分类任务中填补不足的数据差距方面的应用,并考虑了训练集中不均衡类别的影响。通过使用三种针对冒犯性语言检测、评论欺诈检测和短信垃圾检测的最新分类器进行评估,我们发现使用 GPT-3 数据增强策略训练的模型优于未使用增强和使用常见数据增强策略训练的模型;特别是在已知阳性样本严重不足的情况下,GPT-3 数据增强策略带来了显著的好处。
Oct, 2023
本研究利用 GPT-2 生成人工数据增广样本,探究种子数据对生成样本和分类器性能的影响,结果表明在有限的标签实例下将 GPT-2 微调可以实现稳定的分类性能改进,而通过领域专家选择指导此过程可实现进一步提高的效果,这为结合生成模型和主动学习提供了有趣的研究方向。
Nov, 2021
Text AutoAugment 是一种数据增强方法,通过贝叶斯优化算法自动寻找最佳组合操作作为增强策略应用于训练数据。该方法显著提高了模型的泛化能力,并在六个基准数据集上表现突出,特别是在低资源和类不平衡情况下,相应的分类准确率平均分别提高了 8.8% 和 9.7%。
Sep, 2021