ACLMar, 2024

CoDa: 基于约束生成的数据增强方法用于低资源 NLP

TL;DRCoDa 是一种控制性、有效性且无需训练的数据增强技术,用于低资源(数据不足)自然语言处理。通过从每个样本中提取简单的约束条件,我们使用指令型大型语言模型生成满足这些约束条件的文本,从而产生了多样且新颖的训练实例。我们的研究结果表明,遵循下游数据集中的简单约束条件的合成数据作为有效的数据增强,在不需要复杂的解码约束生成技术或精细调优的情况下,CoDa 可以实现这一目标,从而避免了模型偏向训练样本数量较少的问题。此外,CoDa 是第一个可以让用户对数据增强生成过程进行明确控制的框架,并支持多个领域的简单适应性。通过覆盖 3 种任务和 3 种低资源设置的 11 个数据集,我们展示了 CoDa 的有效性,其相对基准模型在定性和定量上均有 0.12%-7.19% 的改进。代码可在此链接中找到:this https URL。