EPiDA:一个易于插件化的数据增强框架,用于高性能文本分类
提出 EDA 方法来增强文本分类任务的性能,包括四种简单但强大的数据增强操作:同义词替换、随机插入、随机交换和随机删除,在五个文本分类任务中,展示了 EDA 对于卷积神经网络和循环神经网络性能提升的效果。EDA 特别适用于小型数据集。使用 EDA 方法在 50%可用的训练集上训练时,平均而言可以达到使用全部数据正常训练的准确性水平。此外,还进行了大量消融研究,并提供了实际使用的参数建议。
Jan, 2019
本文提出了一种名为 AEDA 的数据增强技术,通过在原始文本中随机插入标点符号来改善文本分类任务的性能,相比于 EDA 方法,AEDA 更易于实现,而且在句子中改变单词位置时保留词序,从而导致更好的泛化性能。实验结果表明,在使用 AEDA 增强数据训练的情况下,该模型在五个数据集中表现出优异的性能。
Aug, 2021
提出了一种名为 RoPDA 的数据增强方法,使用基于预训练语言模型的连续提示方法,在低资源的 NER 任务中生成标签反转和标签保存的样本,通过滤除低质量样本和 mixup 技术来优化利用增强样本,实验证明该方法显著提高了性能并超越了半监督学习方法。
Jul, 2023
本文提出了一种名为基于提示排序的数据增强方法(PODA),使用于预训练语言模型在低资源环境下执行少样本命名实体识别任务,PODA 方法通过提供不按来源序列严格排序但合理多样化的目标实体序列来训练模型,可以加强在各种 NER 任务中的效果表现。
May, 2023
提出了一种名为 EnTDA 的数据增强方法,通过添加、删除、替换和交换实体来打破实体间的依赖关系,并采用多样性 beam search 策略增加数据的多样性,以提高在 13 个 NER 数据集上的表现。
Oct, 2022
通过提出易分布数据增强(EDDA)和类型特定的相似词替换(TSSR)两种扩展方法,利用语义词上下文信息和词性标签进行词替换和增强,我们展示了这些方法在低资源语言的两个代表数据集上通过 F1 分数度量的实用性,证明了增强数据可以在低资源环境中提高分类性能。
Sep, 2023
本研究聚焦于为低资源的自然语言理解任务提供数据增强。我们提出了一种基于提示的数据增强模型(PromDA),它只在冻结的预训练语言模型(PLMs)中训练小规模的软提示(即一组可训练向量)。该方法通过两个不同的视角生成合成数据,并使用 NLU 模型过滤掉质量低的数据。在四个基准测试上进行实验,PromDA 产生的合成数据成功提升了 NLU 模型的性能,并始终优于几个有竞争力的基准模型,包括使用未标记的领域内数据的最先进的半监督模型。PromDA 产生的合成数据也是未标记的领域内数据的补充。当将这些数据与未标记的领域内数据结合使用时,NLU 模型的性能可以进一步提高。
Feb, 2022
本文介绍了一种基于同类别两个不同文本 span 性质相似的 extsc {Pr} 关系的 extbf {Peer} extbf {D} ata extbf {A} ugmentation (PeerDA) 方法,可以有效地用于 Span Identification 任务,获得了七个 SpanID 任务的最优结果。
Oct, 2022
情感识别在文本中,识别诸如喜悦或愤怒之类的情感,是 NLP 中的一个具有挑战性的问题,其中一个挑战是缺乏已注释有情感的可用数据集。本研究研究了数据增强技术对小规模不平衡数据集的影响,并且证实使用增强数据训练分类器模型可以显著改进情感识别性能。
Oct, 2023
本研究利用丰富的标签语义信息提出了一种新颖的标签引导数据增强框架 PromptDA,通过有效地利用标签语义和数据增强来提高自然语言理解的性能,以解决如何为基于 Prompt 的 few-shot 调整设计有效的数据增强方法的重要研究问题。
May, 2022