生成语法错误校正的人工错误负担

ACLJul, 2019

生成语法错误校正的人工错误负担

The Unbearable Weight of Generating Artificial Errors for Grammatical Error Correction

Phu Mon Htut, Joel Tetreault

TL;DR通过人工制造包含错误的句子，使用序列到序列模型来实现逐步的语法错误纠正，并比较其效果与规则化的方法。

Abstract

In recent years, sequence-to-sequence models have been very effective for end-to-end grammatical error correction (GEC). As creating human-annotated parallel corpus for GEC is expensive and time-consuming, there

sequence-to-sequence models grammatical error correction neural models artificial corpus generation rule-based approach

发现论文，激发创造

语法错误纠正的语料生成

本研究使用了序列到序列的框架对语法纠错进行建模。通过两种方法生成了大量的 Wikipedia 平行数据集，并使用迭代解码策略训练了神经语法纠错模型，最终在 CoNLL-2014 基准和 JFLEG 任务中实现了领先于现有技术的表现。

Apr, 2019

使用标记的错误模型生成语法纠错的合成数据

本研究使用自动注释工具 ERRANT 的错误类型标签指导合成数据生成，并比较了多种模型以研究如何基于错误类型标签从正确的句子生成不合语法的句子。在此基础上，构建一个规模较大的合成数据集，其错误标签的频率分布与给定开发集相匹配。该合成数据集具有较好的性能表现，可以显著提高 BEA-19 和 CoNLL14 测试集的性能，并且可以有效地适应 GEC 系统，特别是对于混合本地和非本地语言的英语人群，其效果优于由高质量句对组成的真实训练数据。

May, 2021

语法错误校正模型能否实现语法概括？

本研究探索了语法纠错模型的泛化能力，通过合成和真实的数据集来评估其泛化性，结果发现目前标准的 Transformer-based GEC 模型在有限的词汇和语法环境下仍无法实现语法归纳。

Jun, 2021

基于更好的预训练和顺序迁移学习构建的神经语法错误纠正系统

本文介绍了一种用于纠正语法错误的低资源序列到序列任务方法，首先使用现实的噪声函数生成大型未注释语料库的错误版本，然后利用这些并行语料库进行 Transformer 模型的预训练，并通过顺序迁移学习将这些模型适应于测试集的领域和风格。同时结合上下文感知的神经拼写检查器，我们的系统在 ACL 2019 BEA 共享任务中取得了竞争力的结果。我们公开代码与材料以便复现。

Jul, 2019

通过多任务训练和优化训练计划实现高效的语法错误校正

本研究通过使用辅助任务和优化训练顺序，针对神经语法错误校正的问题，提出了一种高效利用数据的方法，利用较小规模的基于 BART 模型（400M 参数）的结果优于基于 T5-XXL 模型（11B 参数）的最佳模型。

Nov, 2023

根据内容评估句子以生成语法错误

本文介绍一种基于学习的两阶段方法用于生成语法纠错中的合成数据，以缓解数据稀缺问题并提高性能。经过实验证明，我们所提出的方法训练出的模型优于其他先前工作中仅包含一个错误的句子合成数据所训练出的模型。

Aug, 2022

纠错与提升：生成更好的错误以提高语法错误检测

本文研究如何通过有限的人工标注数据，使用基于注意力机制的序列到序列模型及简单的后处理程序、进行人工数据合成，以提高文本纠错的准确率。实验结果表明，我们的方法可生成质量较高的人工数据集，有效地提高了基于双向 LSTM 的文本纠错方法的性能水平。

Sep, 2018

自动语法错误纠正的人类水平性能达成：一项实证研究

该论文提出了一种新颖的流利性提升学习和推理机制，结合卷积 seq2seq 模型，成功将神经序列到序列的方法应用于语法错误纠正 (GEC)，在 CoNLL-2014 10 注释数据集上获得了 75.72（F_{0.5}）的最好表现，在 JFLEG 测试集上获得了 62.42（GLEU)）的最好表现，并成为首个在这两项基准测试中都达到人类水平性能（分别为 CoNLL-2014 72.58 和 JFLEG 62.37）的 GEC 系统。

Jul, 2018

利用机器翻译和句法模式进行人造错误生成

本研究探讨了两种替代方法：机器翻译和文本模式提取以解决短缺的数据对自动化错误检测的影响。实验表明：人工生成的错误明显提高了对 FCE 和 CoNLL 2014 数据集的错误检测精度。

Jul, 2017

用于语法错误校正的可控数据合成方法

提出两种数据合成方法来解决语法错误纠正任务中缺乏平行数据的问题，并对不同数据进行实验，结果表明错误率为 40％，错误类型的比例相同可以更好地提高模型性能。最终，合成约 1 亿数据，实现了与使用两倍数据的最新技术相当的性能。

Sep, 2019