RoPDA:面向低资源命名实体识别的鲁棒性基于提示的数据增强
本文提出了一种名为基于提示排序的数据增强方法(PODA),使用于预训练语言模型在低资源环境下执行少样本命名实体识别任务,PODA 方法通过提供不按来源序列严格排序但合理多样化的目标实体序列来训练模型,可以加强在各种 NER 任务中的效果表现。
May, 2023
本研究聚焦于为低资源的自然语言理解任务提供数据增强。我们提出了一种基于提示的数据增强模型(PromDA),它只在冻结的预训练语言模型(PLMs)中训练小规模的软提示(即一组可训练向量)。该方法通过两个不同的视角生成合成数据,并使用 NLU 模型过滤掉质量低的数据。在四个基准测试上进行实验,PromDA 产生的合成数据成功提升了 NLU 模型的性能,并始终优于几个有竞争力的基准模型,包括使用未标记的领域内数据的最先进的半监督模型。PromDA 产生的合成数据也是未标记的领域内数据的补充。当将这些数据与未标记的领域内数据结合使用时,NLU 模型的性能可以进一步提高。
Feb, 2022
本研究利用丰富的标签语义信息提出了一种新颖的标签引导数据增强框架 PromptDA,通过有效地利用标签语义和数据增强来提高自然语言理解的性能,以解决如何为基于 Prompt 的 few-shot 调整设计有效的数据增强方法的重要研究问题。
May, 2022
提出了一种新的方法,通过将其他数据集中的丰富示例与给定的训练数据结合起来,通过在原始和检索的样本之间的上下文信息中促使大型语言模型生成新的样本,以增加训练数据的多样性和相关性,在低资源环境中实现了比现有大型语言模型数据增强基线更好的性能。
Feb, 2024
本研究提出了一种基于语言模型的数据增强方法,可以生成高质量的合成数据以提高机器学习性能,在监督和半监督学习环境下,实验结果表明,在给定较少的训练数据的情况下,该方法可以始终优于基准方法。
Nov, 2020
本文提出了一种易于使用的、支持有效文本分类的数据增强框架 EPiDA,它利用相对熵极大化和条件熵最小化来控制数据生成,其中相对熵用于增强数据的多样性,而条件熵则用于确保其语义一致性。实验结果表明,EPiDA 在大多数情况下优于现有的最先进方法,并且适用于各种数据增强算法和分类模型。
Apr, 2022
本文提出了一种基于多任务学习的数据增强方法,通过将目标句子的顺序进行颠倒等操作,产生不流畅的目标句子,作为辅助任务使用以加强编码器和强制解码器更多地关注源表示。在六个低资源翻译任务上的实验证明,该方法相对于以扩展经验数据分布为目标的传统数据增强方法,可以在提高翻译质量的同时提高翻译系统的鲁棒性和抗干扰性。
Sep, 2021
提出了一种名为 EnTDA 的数据增强方法,通过添加、删除、替换和交换实体来打破实体间的依赖关系,并采用多样性 beam search 策略增加数据的多样性,以提高在 13 个 NER 数据集上的表现。
Oct, 2022
本研究探索在硬任务(即少样本自然语言理解)和强基线(即超过 10 亿参数的预训练模型)上进行数据增强。通过生成模型和分类器共同生成标签翻转数据的新方法 FlipDA,该方法能够提高任务的有效性和稳健性。
Aug, 2021
本文提出了一种名为 CoDA 的新型数据增强框架,通过整合多种转换方法,试图解决文本数据增强中的标签保留问题。实验表明,CoDA 架构在多种自然语言理解任务中平均提高了 2.2% 的效果,相较其他基线方法表现更强
Oct, 2020