EMNLPOct, 2022

基于语言规则的本地化中文语法纠错语料库生成

TL;DR本文提出了一种基于语言规则的方法来构建自动生成语法错误的大规模中文语法错误纠正训练语料库,并提出了一个挑战性的中文语法错误纠正基准,旨在解决当前缺乏高质量标注的训练语料库和测试集不是由中文母语人士制作的问题。实验结果表明,我们提出的训练数据构建方法有效地提高了中文语法错误纠正模型的性能,并且我们的基准是进一步发展中文语法错误纠正领域的绝佳资源。