ACLJun, 2024

通过上下文数据增强来改进语法错误修正

TL;DR提出一种基于上下文增强的合成数据构建方法,用于语法错误校正,在生成模型的基础上结合基于规则的替换,以增加原始数据的错误分布一致性,并提出一种基于重标记的数据清洗方法来减小合成数据中噪声标签的影响。实验证明,该增强方法在有限的合成数据下始终优于强基线方法,并达到了最先进水平。