May, 2021

使用标记的错误模型生成语法纠错的合成数据

TL;DR本研究使用自动注释工具 ERRANT 的错误类型标签指导合成数据生成,并比较了多种模型以研究如何基于错误类型标签从正确的句子生成不合语法的句子。在此基础上,构建一个规模较大的合成数据集,其错误标签的频率分布与给定开发集相匹配。该合成数据集具有较好的性能表现,可以显著提高 BEA-19 和 CoNLL14 测试集的性能,并且可以有效地适应 GEC 系统,特别是对于混合本地和非本地语言的英语人群,其效果优于由高质量句对组成的真实训练数据。