CoDa: 基于约束生成的数据增强方法用于低资源 NLP

ACLMar, 2024

CoDa: 基于约束生成的数据增强方法用于低资源 NLP

CoDa: Constrained Generation based Data Augmentation for Low-Resource NLP

Chandra Kiran Reddy Evuru, Sreyan Ghosh, Sonal Kumar, Ramaneswaran S, Utkarsh Tyagi...

TL;DRCoDa 是一种控制性、有效性且无需训练的数据增强技术，用于低资源（数据不足）自然语言处理。通过从每个样本中提取简单的约束条件，我们使用指令型大型语言模型生成满足这些约束条件的文本，从而产生了多样且新颖的训练实例。我们的研究结果表明，遵循下游数据集中的简单约束条件的合成数据作为有效的数据增强，在不需要复杂的解码约束生成技术或精细调优的情况下，CoDa 可以实现这一目标，从而避免了模型偏向训练样本数量较少的问题。此外，CoDa 是第一个可以让用户对数据增强生成过程进行明确控制的框架，并支持多个领域的简单适应性。通过覆盖 3 种任务和 3 种低资源设置的 11 个数据集，我们展示了 CoDa 的有效性，其相对基准模型在定性和定量上均有 0.12%-7.19% 的改进。代码可在此链接中找到：this https URL。

Abstract

We present coda (Constrained Generation based data augmentation), a controllable, effective, and training-free data augmentation technique

coda data augmentation low-resource nlp constraints instruction-following large language models

发现论文，激发创造

CoDA: 自然语言理解的对比增强和多样性促进数据增强

本文提出了一种名为 CoDA 的新型数据增强框架，通过整合多种转换方法，试图解决文本数据增强中的标签保留问题。实验表明，CoDA 架构在多种自然语言理解任务中平均提高了 2.2% 的效果，相较其他基线方法表现更强

Oct, 2020

基于上下文的可控数据增强技术在文本转 SQL 中的应用

本文介绍了一种名为 ConDA 的数据扩充方法，通过交互式问题和相应的 SQL 结果生成数据，利用 SQL 对话状态增强数据多样性，同时利用基础模型确保数据质量。实验结果表明，ConDA 使基础模型的性能平均提升了 3.3％，且生成的数据质量较高。

Apr, 2023

通识推理的生成式数据增广

该研究使用预先训练的语言模型和选择最有信息量和多样性的生成数据的方法，比基于后翻译的现有数据增强方法表现更好，并在低资源环境下获得了更准确和稳健的学习结果。

Apr, 2020

DoCoGen: 面向低资源领域自适应的领域反事实生成

本文提出了一种可控生成的方法 --DoCoGen 算法，用于解决自然语言处理中的域自适应挑战，通过生成领域对抗文本示例 (D-con) 来增强情感分类器和多标签意图分类器，该模型优于其他基线模型和现有的无监督领域自适应算法。

Feb, 2022

DAGA: 一种基于生成方法的数据增强技术，用于低资源标注任务

本研究提出了一种基于语言模型的数据增强方法，可以生成高质量的合成数据以提高机器学习性能，在监督和半监督学习环境下，实验结果表明，在给定较少的训练数据的情况下，该方法可以始终优于基准方法。

Nov, 2020

CoCoSoDa: 代码搜索的有效对比学习

本文提出了 CoCoSoDa 的方法，充分利用了对比学习进行代码搜索方面应用的两个关键因素：数据扩充和负样本。该方法使用软数据扩充技术生成正样本，使用动量机制生成一致的负样本表示，使用多模式的对比学习方法，既拉紧了代表代码 - 查询对的表示，又将不成对的代码片段和查询推开。对大型数据集进行的广泛实验表明，该方法的性能显著优于 14 个基线，并在平均 MRR 分数上分别超过 CodeBERT、GraphCodeBERT 和 UniXcoder 的 13.3％、10.5％和 5.9％。

Apr, 2022

CoUDA: 通过统一数据增强评估连贯性

基于语言模型的大数据时代，一种名为 CoUDA 的数据增强框架针对语篇连贯性评估，通过全局和局部方面的增强策略，包括生成式模型生成增强样本以及综合评估等手段，取得了在连贯性评估任务中的最先进性能。

Mar, 2024

对话人工智能的数据增强

对话系统中的数据扩充方法提供了关键的方法来解决数据稀缺问题，并探讨了对话系统中的生成、评估等任务中的挑战与未来方向。

Sep, 2023

GenCo: 有限数据生成对抗网络的生成式协同训练

本研究提出了一种基于多元鉴别器协同训练的生成对抗网络 GenCo，通过提供多角度的监督信息减轻鉴别器过拟合问题，该方法在有限的训练数据下达到了优越的图像生成结果，并通过与数据增强方法相结合获得了更加稳定且明显的性能提升。

Oct, 2021

用于低资源领域任务的检索增强数据增强

提出了一种新的方法，通过将其他数据集中的丰富示例与给定的训练数据结合起来，通过在原始和检索的样本之间的上下文信息中促使大型语言模型生成新的样本，以增加训练数据的多样性和相关性，在低资源环境中实现了比现有大型语言模型数据增强基线更好的性能。

Feb, 2024