挖掘错误模板以进行语法错误修正
本文提出了一种基于多个假设的神经验证网络(VERNet)来进行语法错误修正(GEC)质量评估,用以检测生成的多个高质量假设,并可以通过重新排序提高GEC模型的性能。 VERNet在四个GEC数据集上取得了最先进的语法错误检测性能,并可实现最佳质量评估结果。
May, 2021
本研究使用自动注释工具ERRANT的错误类型标签指导合成数据生成,并比较了多种模型以研究如何基于错误类型标签从正确的句子生成不合语法的句子。在此基础上,构建一个规模较大的合成数据集,其错误标签的频率分布与给定开发集相匹配。该合成数据集具有较好的性能表现,可以显著提高BEA-19和CoNLL14测试集的性能,并且可以有效地适应GEC系统,特别是对于混合本地和非本地语言的英语人群,其效果优于由高质量句对组成的真实训练数据。
May, 2021
本研究探索了语法纠错模型的泛化能力,通过合成和真实的数据集来评估其泛化性,结果发现目前标准的Transformer-based GEC模型在有限的词汇和语法环境下仍无法实现语法归纳。
Jun, 2021
本文提出了一种简单的方法来训练最先进的多语言语法纠错模型,使用大规模多语言语言模型来优化,建立并发布了基线数据集cLang-8,通过单步微调得出了英语的精确度提高。
Jun, 2021
本文提出了一种通用且与语言无关的多语言语法纠错方法,通过预训练的跨语言语言模型和英语与目标语言之间的平行翻译数据,构建了多样化的平行语法纠错数据,并利用该数据训练语法纠错模型,在不同语言的三个基准测试中取得了最先进的结果。
Jan, 2022
本文提出了 FCGEC,它是一个多引用的细粒度中文语法错误检测、识别和纠正语料库,以及一个用于低资源环境下纠正语法错误的 Switch-Tagger-Generator(STG)基准模型,实验结果表明 STG 在 FCGEC 上的表现优于其他 GEC 基准模型,同时也揭示出基准模型和人类之间存在显著差距,鼓励未来的模型通过桥接填补这一差距。
Oct, 2022
在此综述文章中,我们介绍了在自然语言处理领域中的语法错误纠正任务,其中包括越来越流行的神经机器翻译系统,同时概述了任务中的语言学挑战以及常用的数据集和评价方法。我们还介绍了人类主观判断相关的可靠度指标,并总结了近年来的发展以及未来工作和仍面临的挑战,希望本综述能为新手或关注近期发展的研究人员提供全面的资源。
Nov, 2022
本文报道了使用两个基于 Transformer 的预训练序列到序列模型进行多类阿拉伯语语法错误检测的结果,研究表明,使用语法错误信息作为辅助输入可以提高语法纠错性能;此外,研究还探讨了上下文形态预处理在辅助语法纠错系统方面的应用,并在两个阿拉伯语 GEC 共享任务数据集上取得了最先进的结果。
May, 2023
本研究提出了MainGEC方法,通过利用数据标注的准确性和潜在注释的多样性的内在差异设计了基于令牌级和句子级训练权重,并进行了混合粒度加权训练以改善GEC的训练效果。经验证实,MainGEC在两个基准数据集上以Seq2Seq或Seq2Edit方式表现出一致且显著的性能提升,证明了混合粒度加权训练的有效性和优越性。进一步的消融实验验证了MainGEC中设计的两个粒度权重的有效性。
Nov, 2023
本文通过实验研究语法错误修正,深入研究单模型系统的细微差别,比较集成和排名方法的效率,并探讨了大型语言模型在作为单模型系统、集成部分和排名方法时在语法错误修正上的应用。我们在CoNLL-2014-test和BEA-test上分别取得了F_0.5分数为72.8和81.4的最新最佳性能,为GEC的进一步发展和我们研究的可重复性提供支持。同时我们公开了我们的代码、训练模型和系统的输出结果,以便进一步推动GEC的发展。
Apr, 2024