PromDA: 一种基于提示的数据增强方法，用于低资源的自然语言理解任务

ACLFeb, 2022

PromDA: 一种基于提示的数据增强方法，用于低资源的自然语言理解任务

PromDA: Prompt-based Data Augmentation for Low-Resource NLU Tasks

Yufei Wang, Can Xu, Qingfeng Sun, Huang Hu, Chongyang Tao...

TL;DR本研究聚焦于为低资源的自然语言理解任务提供数据增强。我们提出了一种基于提示的数据增强模型（PromDA），它只在冻结的预训练语言模型（PLMs）中训练小规模的软提示（即一组可训练向量）。该方法通过两个不同的视角生成合成数据，并使用 NLU 模型过滤掉质量低的数据。在四个基准测试上进行实验，PromDA 产生的合成数据成功提升了 NLU 模型的性能，并始终优于几个有竞争力的基准模型，包括使用未标记的领域内数据的最先进的半监督模型。PromDA 产生的合成数据也是未标记的领域内数据的补充。当将这些数据与未标记的领域内数据结合使用时，NLU 模型的性能可以进一步提高。

Abstract

This paper focuses on the data augmentation for low-resource Natural Language Understanding (NLU) tasks. We propose Prompt-based D}ata Augmentation model (PromDA) which only trains small-scale Soft Prompt (i.e., a set of trainable vectors) in the frozen →

data augmentation natural language understanding pre-trained language models synthetic data nlu models

发现论文，激发创造

PromptDA: 基于标签的数据增强，针对基于提示的小样本学习

本研究利用丰富的标签语义信息提出了一种新颖的标签引导数据增强框架 PromptDA，通过有效地利用标签语义和数据增强来提高自然语言理解的性能，以解决如何为基于 Prompt 的 few-shot 调整设计有效的数据增强方法的重要研究问题。

May, 2022

RoPDA：面向低资源命名实体识别的鲁棒性基于提示的数据增强

提出了一种名为 RoPDA 的数据增强方法，使用基于预训练语言模型的连续提示方法，在低资源的 NER 任务中生成标签反转和标签保存的样本，通过滤除低质量样本和 mixup 技术来优化利用增强样本，实验证明该方法显著提高了性能并超越了半监督学习方法。

Jul, 2023

基于提示排序的数据增强增强少样本命名实体识别

本文提出了一种名为基于提示排序的数据增强方法（PODA），使用于预训练语言模型在低资源环境下执行少样本命名实体识别任务，PODA 方法通过提供不按来源序列严格排序但合理多样化的目标实体序列来训练模型，可以加强在各种 NER 任务中的效果表现。

May, 2023

AdaPrompt：基于提示的自然语言处理自适应模型训练

通过利用任务和提示的特征，AdaPrompt 使预训练语言模型不断预训练，提高了 NLP 方面几个基准测试中的表现，在零样本情况下相对误差降低了高达 26.35％。

Feb, 2022

低资源神经机器翻译中数据增强的再思考：多任务学习方法

本文提出了一种基于多任务学习的数据增强方法，通过将目标句子的顺序进行颠倒等操作，产生不流畅的目标句子，作为辅助任务使用以加强编码器和强制解码器更多地关注源表示。在六个低资源翻译任务上的实验证明，该方法相对于以扩展经验数据分布为目标的传统数据增强方法，可以在提高翻译质量的同时提高翻译系统的鲁棒性和抗干扰性。

Sep, 2021

知识混合增强模型：低资源 NLP 的全功能数据增强方案

该论文提出了一种名为 KnowDA 的 Seq2Seq 语言模型，该模型利用知识混合训练 (KoMT) 在多个异构 NLP 任务中预先训练并生成高质量的合成数据，用于解决低资源 NLP 任务中数据增强的问题。实验证明，KnowDA 成功地将任务知识转移给在 KoMT 中看到和没有看到过的 NLP 任务。

Jun, 2022

基于提示的少样本表格文本生成适配器

本文介绍了一种基于 Prompt-based Adapter (PA) 的方法，通过注入 prompt 模板对特定领域的知识和表格相关的表示进行数据增强，从而在少量样本情况下实现表格到文本的生成任务。相比之前的方法，在 Humans、Books 和 Songs 等三个数据集上，此方法表现更好。

Feb, 2023

领域无关的互助自适应方法用于无监督领域适应

利用大规模预训练视觉 - 语言模型的知识进行领域不可知的相互提示，通过互相对齐视觉和文本嵌入来利用领域不变的语义，并通过语义一致性损失和实例差异对齐损失进行规则化，实验证明 Domain-Agnostic Mutual Prompting（DAMP）相较于现有方法在三个无监督领域自适应基准上具有优势。

Mar, 2024

基于提示的无监督领域自适应的分布对齐

在本文中，我们首先实验性地证明了无监督训练的视觉语言模型可以显著减少源域和目标域之间的分布差异，从而改善无监督域自适应的性能。然而，直接在下游无监督域自适应任务中部署这些模型的一个重要挑战是及时的工程技术，需要对源域和目标域的领域知识进行对齐，因为无监督域自适应的性能受到良好的领域不变表示的严重影响。我们进一步提出了一种基于提示的分布对齐方法（PDA），将领域知识融入到提示学习中。具体而言，PDA 采用了两支分支的提示调试范例，即基础分支和对齐分支。基础分支专注于将与类相关的表示集成到提示中，确保在不同类别之间进行区分。为了进一步减小领域差异，我们为源域和目标域构建特征库，并提出了图像引导特征调试（IFT）来使输入关注特征库，从而有效地将自我增强和跨域特征集成到模型中。通过这种方式，这两个分支可以相互促进，增强 VLM 在无监督域自适应中的适应性。我们在三个基准测试上进行了大量实验，证明了我们提出的 PDA 方法达到了最先进的性能。

Dec, 2023

AUG-FedPrompt: 基于数据增强 Prompt 的实用 Few-shot 联邦 NLP

本研究提出了一种基于数据增强的联邦学习算法 AUG-FedPrompt，针对 NLP 中数据稀缺和隐私保护等问题，使用少量有标签数据与海量无标签数据训练，可在联邦学习任务中取得与使用全部有标签数据进行微调一致的表现。

Dec, 2022