根据内容评估句子以生成语法错误

Aug, 2022

根据内容评估句子以生成语法错误

Judge a Sentence by Its Content to Generate Grammatical Errors

Chowdhury Rafeed Rahman

TL;DR本文介绍一种基于学习的两阶段方法用于生成语法纠错中的合成数据，以缓解数据稀缺问题并提高性能。经过实验证明，我们所提出的方法训练出的模型优于其他先前工作中仅包含一个错误的句子合成数据所训练出的模型。

Abstract

data sparsity is a well-known problem for grammatical error correction (GEC). Generating synthetic training data is one widely proposed solution to this problem, and has allowed models to achieve state-of-the-art

data sparsity grammatical error correction synthetic data generation two-stage method performance improvement

发现论文，激发创造

使用标记的错误模型生成语法纠错的合成数据

本研究使用自动注释工具 ERRANT 的错误类型标签指导合成数据生成，并比较了多种模型以研究如何基于错误类型标签从正确的句子生成不合语法的句子。在此基础上，构建一个规模较大的合成数据集，其错误标签的频率分布与给定开发集相匹配。该合成数据集具有较好的性能表现，可以显著提高 BEA-19 和 CoNLL14 测试集的性能，并且可以有效地适应 GEC 系统，特别是对于混合本地和非本地语言的英语人群，其效果优于由高质量句对组成的真实训练数据。

May, 2021

用于语法错误校正的可控数据合成方法

提出两种数据合成方法来解决语法错误纠正任务中缺乏平行数据的问题，并对不同数据进行实验，结果表明错误率为 40％，错误类型的比例相同可以更好地提高模型性能。最终，合成约 1 亿数据，实现了与使用两倍数据的最新技术相当的性能。

Sep, 2019

大规模合成数据在语法错误校正中的评估

本文介绍了 3 种衡量大规模人工错误数据的质量度量标准：可靠性、多样性和分布一致性，并利用这些标准自动评估数据集的质量。同时，这些指标也可以帮助向数据生成系统提供反馈，从而提高动态生成的合成数据的质量。

Oct, 2022

生成语法错误校正的人工错误负担

通过人工制造包含错误的句子，使用序列到序列模型来实现逐步的语法错误纠正，并比较其效果与规则化的方法。

Jul, 2019

通过上下文数据增强来改进语法错误修正

提出一种基于上下文增强的合成数据构建方法，用于语法错误校正，在生成模型的基础上结合基于规则的替换，以增加原始数据的错误分布一致性，并提出一种基于重标记的数据清洗方法来减小合成数据中噪声标签的影响。实验证明，该增强方法在有限的合成数据下始终优于强基线方法，并达到了最先进水平。

Jun, 2024

语法错误校正模型能否实现语法概括？

本研究探索了语法纠错模型的泛化能力，通过合成和真实的数据集来评估其泛化性，结果发现目前标准的 Transformer-based GEC 模型在有限的词汇和语法环境下仍无法实现语法归纳。

Jun, 2021

通过多任务训练和优化训练计划实现高效的语法错误校正

本研究通过使用辅助任务和优化训练顺序，针对神经语法错误校正的问题，提出了一种高效利用数据的方法，利用较小规模的基于 BART 模型（400M 参数）的结果优于基于 T5-XXL 模型（11B 参数）的最佳模型。

Nov, 2023

纠错与提升：生成更好的错误以提高语法错误检测

本文研究如何通过有限的人工标注数据，使用基于注意力机制的序列到序列模型及简单的后处理程序、进行人工数据合成，以提高文本纠错的准确率。实验结果表明，我们的方法可生成质量较高的人工数据集，有效地提高了基于双向 LSTM 的文本纠错方法的性能水平。

Sep, 2018

语法错误修正的数据加权训练策略

本文通过使用新方法生成大量嘈杂的预训练数据以及发布质量更高的有限调整数据，解决了语法错误纠正领域的数据稀缺问题；同时，通过在小型、高质量数据集上导出大型预训练数据的示例级分数，针对 delta-log-perplexity 进行实证研究，以最佳方式将其纳入 GEC 的训练计划中，从而实现对 GEC 测试集的最佳结果。

Aug, 2020

通过混合细粒度加权训练进行语法错误修正

本研究提出了 MainGEC 方法，通过利用数据标注的准确性和潜在注释的多样性的内在差异设计了基于令牌级和句子级训练权重，并进行了混合粒度加权训练以改善 GEC 的训练效果。经验证实，MainGEC 在两个基准数据集上以 Seq2Seq 或 Seq2Edit 方式表现出一致且显著的性能提升，证明了混合粒度加权训练的有效性和优越性。进一步的消融实验验证了 MainGEC 中设计的两个粒度权重的有效性。

Nov, 2023