RoPDA：面向低资源命名实体识别的鲁棒性基于提示的数据增强

Jul, 2023

RoPDA：面向低资源命名实体识别的鲁棒性基于提示的数据增强

RoPDA: Robust Prompt-based Data Augmentation for Low-Resource Named Entity Recognition

Sihan Song, Furao Shen, Jian Zhao

TL;DR提出了一种名为 RoPDA 的数据增强方法，使用基于预训练语言模型的连续提示方法，在低资源的 NER 任务中生成标签反转和标签保存的样本，通过滤除低质量样本和 mixup 技术来优化利用增强样本，实验证明该方法显著提高了性能并超越了半监督学习方法。

Abstract

data augmentation has been widely used in low-resource ner tasks to tackle the problem of data sparsity. However, previous →

data augmentation low-resource ner pre-trained language models performance improvement

发现论文，激发创造

基于提示排序的数据增强增强少样本命名实体识别

本文提出了一种名为基于提示排序的数据增强方法（PODA），使用于预训练语言模型在低资源环境下执行少样本命名实体识别任务，PODA 方法通过提供不按来源序列严格排序但合理多样化的目标实体序列来训练模型，可以加强在各种 NER 任务中的效果表现。

May, 2023

PromDA: 一种基于提示的数据增强方法，用于低资源的自然语言理解任务

本研究聚焦于为低资源的自然语言理解任务提供数据增强。我们提出了一种基于提示的数据增强模型（PromDA），它只在冻结的预训练语言模型（PLMs）中训练小规模的软提示（即一组可训练向量）。该方法通过两个不同的视角生成合成数据，并使用 NLU 模型过滤掉质量低的数据。在四个基准测试上进行实验，PromDA 产生的合成数据成功提升了 NLU 模型的性能，并始终优于几个有竞争力的基准模型，包括使用未标记的领域内数据的最先进的半监督模型。PromDA 产生的合成数据也是未标记的领域内数据的补充。当将这些数据与未标记的领域内数据结合使用时，NLU 模型的性能可以进一步提高。

Feb, 2022

PromptDA: 基于标签的数据增强，针对基于提示的小样本学习

本研究利用丰富的标签语义信息提出了一种新颖的标签引导数据增强框架 PromptDA，通过有效地利用标签语义和数据增强来提高自然语言理解的性能，以解决如何为基于 Prompt 的 few-shot 调整设计有效的数据增强方法的重要研究问题。

May, 2022

用于低资源领域任务的检索增强数据增强

提出了一种新的方法，通过将其他数据集中的丰富示例与给定的训练数据结合起来，通过在原始和检索的样本之间的上下文信息中促使大型语言模型生成新的样本，以增加训练数据的多样性和相关性，在低资源环境中实现了比现有大型语言模型数据增强基线更好的性能。

Feb, 2024

DAGA: 一种基于生成方法的数据增强技术，用于低资源标注任务

本研究提出了一种基于语言模型的数据增强方法，可以生成高质量的合成数据以提高机器学习性能，在监督和半监督学习环境下，实验结果表明，在给定较少的训练数据的情况下，该方法可以始终优于基准方法。

Nov, 2020

EPiDA：一个易于插件化的数据增强框架，用于高性能文本分类

本文提出了一种易于使用的、支持有效文本分类的数据增强框架 EPiDA，它利用相对熵极大化和条件熵最小化来控制数据生成，其中相对熵用于增强数据的多样性，而条件熵则用于确保其语义一致性。实验结果表明，EPiDA 在大多数情况下优于现有的最先进方法，并且适用于各种数据增强算法和分类模型。

Apr, 2022

低资源神经机器翻译中数据增强的再思考：多任务学习方法

本文提出了一种基于多任务学习的数据增强方法，通过将目标句子的顺序进行颠倒等操作，产生不流畅的目标句子，作为辅助任务使用以加强编码器和强制解码器更多地关注源表示。在六个低资源翻译任务上的实验证明，该方法相对于以扩展经验数据分布为目标的传统数据增强方法，可以在提高翻译质量的同时提高翻译系统的鲁棒性和抗干扰性。

Sep, 2021

EnTDA: 基于实体到文本的数据增强方法，用于命名实体识别任务

提出了一种名为 EnTDA 的数据增强方法，通过添加、删除、替换和交换实体来打破实体间的依赖关系，并采用多样性 beam search 策略增加数据的多样性，以提高在 13 个 NER 数据集上的表现。

Oct, 2022

FlipDA: 有效稳健的数据增强技术，用于少样本学习

本研究探索在硬任务（即少样本自然语言理解）和强基线（即超过 10 亿参数的预训练模型）上进行数据增强。通过生成模型和分类器共同生成标签翻转数据的新方法 FlipDA，该方法能够提高任务的有效性和稳健性。

Aug, 2021

CoDA: 自然语言理解的对比增强和多样性促进数据增强

本文提出了一种名为 CoDA 的新型数据增强框架，通过整合多种转换方法，试图解决文本数据增强中的标签保留问题。实验表明，CoDA 架构在多种自然语言理解任务中平均提高了 2.2% 的效果，相较其他基线方法表现更强

Oct, 2020