通过多任务训练和优化训练计划实现高效的语法错误校正
该论文提出了一套适用于大多数语法错误修正(GEC)环境的模型无关方法,包括添加源端噪音,领域自适应技术,GEC特定训练目标,单语数据的迁移学习以及集成独立训练的GEC模型和语言模型。这些方法的综合效果导致比现有最优神经GEC模型更好的表现,表现优于CoNLL-2014基准测试中以前最好的神经GEC系统超过10%M2,以及JFLEG测试集中的5.9%。
Apr, 2018
该论文提出了一种新颖的流利性提升学习和推理机制,结合卷积seq2seq模型,成功将神经序列到序列的方法应用于语法错误纠正(GEC),在CoNLL-2014 10注释数据集上获得了75.72(F_{0.5})的最好表现,在JFLEG测试集上获得了62.42(GLEU))的最好表现,并成为首个在这两项基准测试中都达到人类水平性能(分别为CoNLL-2014 72.58和JFLEG 62.37)的GEC系统。
Jul, 2018
本文介绍了一种用于纠正语法错误的低资源序列到序列任务方法,首先使用现实的噪声函数生成大型未注释语料库的错误版本,然后利用这些并行语料库进行Transformer模型的预训练,并通过顺序迁移学习将这些模型适应于测试集的领域和风格。同时结合上下文感知的神经拼写检查器,我们的系统在ACL 2019 BEA共享任务中取得了竞争力的结果。我们公开代码与材料以便复现。
Jul, 2019
本文通过使用新方法生成大量嘈杂的预训练数据以及发布质量更高的有限调整数据,解决了语法错误纠正领域的数据稀缺问题;同时,通过在小型、高质量数据集上导出大型预训练数据的示例级分数,针对 delta-log-perplexity 进行实证研究,以最佳方式将其纳入 GEC 的训练计划中,从而实现对 GEC 测试集的最佳结果。
Aug, 2020
本研究使用自动注释工具ERRANT的错误类型标签指导合成数据生成,并比较了多种模型以研究如何基于错误类型标签从正确的句子生成不合语法的句子。在此基础上,构建一个规模较大的合成数据集,其错误标签的频率分布与给定开发集相匹配。该合成数据集具有较好的性能表现,可以显著提高BEA-19和CoNLL14测试集的性能,并且可以有效地适应GEC系统,特别是对于混合本地和非本地语言的英语人群,其效果优于由高质量句对组成的真实训练数据。
May, 2021
本文提出了一种简单的方法来训练最先进的多语言语法纠错模型,使用大规模多语言语言模型来优化,建立并发布了基线数据集cLang-8,通过单步微调得出了英语的精确度提高。
Jun, 2021
本文提出了一种面向语法错误更正(GEC)的基于类型驱动和多次纠正的方法,通过使用这种方法构建的额外训练实例明确地帮助了模型逐步学习纠正的过程,实现了对不同类型纠正的协同处理,并通过实验结果在英语GEC基准测试中实现了最佳的单模型性能。
Mar, 2022
本研究提出了MainGEC方法,通过利用数据标注的准确性和潜在注释的多样性的内在差异设计了基于令牌级和句子级训练权重,并进行了混合粒度加权训练以改善GEC的训练效果。经验证实,MainGEC在两个基准数据集上以Seq2Seq或Seq2Edit方式表现出一致且显著的性能提升,证明了混合粒度加权训练的有效性和优越性。进一步的消融实验验证了MainGEC中设计的两个粒度权重的有效性。
Nov, 2023
本文通过实验研究语法错误修正,深入研究单模型系统的细微差别,比较集成和排名方法的效率,并探讨了大型语言模型在作为单模型系统、集成部分和排名方法时在语法错误修正上的应用。我们在CoNLL-2014-test和BEA-test上分别取得了F_0.5分数为72.8和81.4的最新最佳性能,为GEC的进一步发展和我们研究的可重复性提供支持。同时我们公开了我们的代码、训练模型和系统的输出结果,以便进一步推动GEC的发展。
Apr, 2024