EMNLPOct, 2023

MixEdit: 重访数据增强与语法错误修正

TL;DR通过生成伪数据进行数据增强已被证明在语法错误修正(GEC)领域中缓解数据稀缺性的挑战中有效。本文引入了可解释且计算高效的两个度量:亲和性和多样性,研究发现高亲和性且适当多样性的优秀 GEC 数据增强策略可以更好地提高 GEC 模型的性能,并提出了一种名为 MixEdit 的数据增强方法,通过策略性和动态地增加真实数据而不需要额外的单语语料库。在英文和中文 GEC 数据集上的实验证实了我们发现的正确性和 MixEdit 的有效性,结果表明 MixEdit 显著提高 GEC 模型性能并且与传统数据增强方法互补。