用于低资源领域任务的检索增强数据增强

Feb, 2024

用于低资源领域任务的检索增强数据增强

Retrieval-Augmented Data Augmentation for Low-Resource Domain Tasks

Minju Seo, Jinheon Baek, James Thorne, Sung Ju Hwang

TL;DR提出了一种新的方法，通过将其他数据集中的丰富示例与给定的训练数据结合起来，通过在原始和检索的样本之间的上下文信息中促使大型语言模型生成新的样本，以增加训练数据的多样性和相关性，在低资源环境中实现了比现有大型语言模型数据增强基线更好的性能。

Abstract

Despite large successes of recent language models on diverse tasks, they suffer from severe performance degeneration in low-resource settings with limited training data available. Many existing works tackle this

language models low-resource settings data augmentation retrieval-augmented data augmentation llm-powered data augmentation baselines

发现论文，激发创造

DAGA: 一种基于生成方法的数据增强技术，用于低资源标注任务

本研究提出了一种基于语言模型的数据增强方法，可以生成高质量的合成数据以提高机器学习性能，在监督和半监督学习环境下，实验结果表明，在给定较少的训练数据的情况下，该方法可以始终优于基准方法。

Nov, 2020

低资源神经机器翻译中数据增强的再思考：多任务学习方法

本文提出了一种基于多任务学习的数据增强方法，通过将目标句子的顺序进行颠倒等操作，产生不流畅的目标句子，作为辅助任务使用以加强编码器和强制解码器更多地关注源表示。在六个低资源翻译任务上的实验证明，该方法相对于以扩展经验数据分布为目标的传统数据增强方法，可以在提高翻译质量的同时提高翻译系统的鲁棒性和抗干扰性。

Sep, 2021

低资源开放领域对话生成的可控且多样化的数据增强

利用大规模语言模型 (LLM) 进行以摘要为基础的对话增强 (SDA) 以提高语义多样性和控制能力，通过生成高质量和多样化的对话数据来增强开放领域对话模型的性能。

Mar, 2024

使用自适应对抗训练提升检索增强语言模型的抗噪能力

这项研究将大型语言模型与检索增强生成相结合，提出了一种名为 RAAT 的新的检索增强自适应对抗训练方法，通过适应性对抗训练动态调整模型的训练过程以应对检索噪声，并通过多任务学习确保模型内部识别噪声上下文的能力。实验证明，使用 RAAT 训练的 LLaMA-2 7B 模型在不同噪声条件下显著提高了 F1 和 EM 分数。

May, 2024

提升检索增强语言模型对无关背景的鲁棒性

使用检索增强语言模型 (Retrieval-augmented language models, RALMs) 在处理特定应用场景问题时，检索到的信息能够提高模型的性能，并且不会损害性能。该研究分析了五个开放领域问答基准，并提出了两种方法以减轻性能下降问题。

Oct, 2023

SynthesizRR: 利用检索增强生成多样化数据集

通过检索和改进综合方法（SynthesizRR），我们通过扩展种子生成内容的方式来合成数据集，从而在语义和词汇多样性、与人类书写文本的相似性以及提纯效果方面极大地改善了标准 32-shot prompting 和其他六种基线方法。

May, 2024

低资源翻译的广义数据增强

本论文提出了一种在低资源机器翻译中进行数据增强的通用框架，该框架不仅使用目标端单语数据，还通过相关高资源语言进行桥接，通过在两个步骤中使用词典和修改无监督机器翻译框架，将高资源数据转换为低资源语言，实验证明该方法在极低的资源条件下，与受监督背景转换基线相比，可将翻译质量提高 1.5 到 8 个 BLEU 点。

Jun, 2019

LLM-DA: 大型语言模型在少样本命名实体识别中的数据增强

提出了 $LLM-DA$，这是基于大型语言模型的一种新的数据增强技术，适用于少样本的命名实体识别任务，并实验证明该方法在有限数据情况下能有效提升模型性能。

Feb, 2024

针对低资源事件抽取的目标增强

应对低资源信息提取的挑战仍然是一个持续存在的问题，由于有限训练示例中固有的信息稀缺性。现有的数据增强方法被认为是潜在的解决方案，但在弱增强（例如同义词增强）和剧烈增强（例如缺乏适当指导的条件生成）之间很难达到平衡。本文提出了一种新的范式，采用目标增强和反向验证，以生成增强的示例，增强了多样性、极性、准确性和连贯性。广泛的实验结果证明了所提范式的有效性。此外，还讨论了已确定的局限性，为未来改进提供了启示。

May, 2024

数据不足？深度学习来救援！

通过现有的自然语言处理技术和文本生成能力，我们提出了一种新的数据增强方法，即基于语言模型的数据增强 (LAMBADA)，它可以在有限标注数据的情况下用强大的预训练神经网络模型合成新的有标注数据，进而提高文本分类任务性能。

Nov, 2019