基于提示排序的数据增强增强少样本命名实体识别
提出了一种名为 RoPDA 的数据增强方法,使用基于预训练语言模型的连续提示方法,在低资源的 NER 任务中生成标签反转和标签保存的样本,通过滤除低质量样本和 mixup 技术来优化利用增强样本,实验证明该方法显著提高了性能并超越了半监督学习方法。
Jul, 2023
本研究利用丰富的标签语义信息提出了一种新颖的标签引导数据增强框架 PromptDA,通过有效地利用标签语义和数据增强来提高自然语言理解的性能,以解决如何为基于 Prompt 的 few-shot 调整设计有效的数据增强方法的重要研究问题。
May, 2022
本研究聚焦于为低资源的自然语言理解任务提供数据增强。我们提出了一种基于提示的数据增强模型(PromDA),它只在冻结的预训练语言模型(PLMs)中训练小规模的软提示(即一组可训练向量)。该方法通过两个不同的视角生成合成数据,并使用 NLU 模型过滤掉质量低的数据。在四个基准测试上进行实验,PromDA 产生的合成数据成功提升了 NLU 模型的性能,并始终优于几个有竞争力的基准模型,包括使用未标记的领域内数据的最先进的半监督模型。PromDA 产生的合成数据也是未标记的领域内数据的补充。当将这些数据与未标记的领域内数据结合使用时,NLU 模型的性能可以进一步提高。
Feb, 2022
提出了一种名为 EnTDA 的数据增强方法,通过添加、删除、替换和交换实体来打破实体间的依赖关系,并采用多样性 beam search 策略增加数据的多样性,以提高在 13 个 NER 数据集上的表现。
Oct, 2022
提出了 $LLM-DA$,这是基于大型语言模型的一种新的数据增强技术,适用于少样本的命名实体识别任务,并实验证明该方法在有限数据情况下能有效提升模型性能。
Feb, 2024
本研究提出了一种基于数据增强的联邦学习算法 AUG-FedPrompt,针对 NLP 中数据稀缺和隐私保护等问题,使用少量有标签数据与海量无标签数据训练,可在联邦学习任务中取得与使用全部有标签数据进行微调一致的表现。
Dec, 2022
本文提出了一种命名实体识别的新的基于 prompt 的学习方法 - QaNER,它使用了基于问答的方法来解决之前 prompt-based 方法所存在的限制,包括更高的计算复杂性、较差的 0-shot 能力、需要手动 prompt 工程,或缺乏 prompt 鲁棒性等问题。相比之前的方法,QaNER 具有更快的推理速度,对 prompt 质量不敏感,鲁棒性也更强,并且在低资源性能和 0-shot 能力方面表现显著优于之前的方法。
Mar, 2022
本文提出了一种基于多任务学习的数据增强方法,通过将目标句子的顺序进行颠倒等操作,产生不流畅的目标句子,作为辅助任务使用以加强编码器和强制解码器更多地关注源表示。在六个低资源翻译任务上的实验证明,该方法相对于以扩展经验数据分布为目标的传统数据增强方法,可以在提高翻译质量的同时提高翻译系统的鲁棒性和抗干扰性。
Sep, 2021
本研究针对基于标记序列的命名实体识别任务,设计并比较了数据增强技术的效果。通过在生物医学和材料科学领域的两个数据集(i2b2-2010 和 MaSciP)上进行实验,我们表明简单的增强技术可以提高循环模型和基于 Transformer 模型的性能,尤其是对于小训练集的情况。
Oct, 2020
对话系统需要产生高语义可信度的能实现多种类型对话行为的回应。本文提出了一种新颖的少样本过度生成与排序方法来实现对话行为的可控生成,并将其与八种少样本提示方式进行了比较,其中包括使用文本风格转移方法从文本伪参考中生成。在生成过程中,我们开发了六个自动排序函数,可以识别具有正确对话行为和高语义准确性的输出。我们在三个领域和四个预训练语言模型上进行了测试,结果显示,几种提示设置实现了完美的对话行为准确性,并且语义准确率接近完美(99.81%),表现优于少样本微调模型。
Jul, 2023