使用标记的错误模型生成语法纠错的合成数据

May, 2021

使用标记的错误模型生成语法纠错的合成数据

Synthetic Data Generation for Grammatical Error Correction with Tagged Corruption Models

Felix Stahlberg, Shankar Kumar

TL;DR本研究使用自动注释工具 ERRANT 的错误类型标签指导合成数据生成，并比较了多种模型以研究如何基于错误类型标签从正确的句子生成不合语法的句子。在此基础上，构建一个规模较大的合成数据集，其错误标签的频率分布与给定开发集相匹配。该合成数据集具有较好的性能表现，可以显著提高 BEA-19 和 CoNLL14 测试集的性能，并且可以有效地适应 GEC 系统，特别是对于混合本地和非本地语言的英语人群，其效果优于由高质量句对组成的真实训练数据。

Abstract

synthetic data generation is widely known to boost the accuracy of neural grammatical error correction (GEC) systems, but existing methods often lack diversity or are too simplistic to generate the broad range of grammatical errors made by human writers. In this work, we use error type

synthetic data generation neural grammatical error correction errant error type tag gec system

发现论文，激发创造

通过上下文数据增强来改进语法错误修正

提出一种基于上下文增强的合成数据构建方法，用于语法错误校正，在生成模型的基础上结合基于规则的替换，以增加原始数据的错误分布一致性，并提出一种基于重标记的数据清洗方法来减小合成数据中噪声标签的影响。实验证明，该增强方法在有限的合成数据下始终优于强基线方法，并达到了最先进水平。

Jun, 2024

用于语法错误校正的可控数据合成方法

提出两种数据合成方法来解决语法错误纠正任务中缺乏平行数据的问题，并对不同数据进行实验，结果表明错误率为 40％，错误类型的比例相同可以更好地提高模型性能。最终，合成约 1 亿数据，实现了与使用两倍数据的最新技术相当的性能。

Sep, 2019

根据内容评估句子以生成语法错误

本文介绍一种基于学习的两阶段方法用于生成语法纠错中的合成数据，以缓解数据稀缺问题并提高性能。经过实验证明，我们所提出的方法训练出的模型优于其他先前工作中仅包含一个错误的句子合成数据所训练出的模型。

Aug, 2022

生成语法错误校正的人工错误负担

通过人工制造包含错误的句子，使用序列到序列模型来实现逐步的语法错误纠正，并比较其效果与规则化的方法。

Jul, 2019

GECTurk：用于土耳其语的语法错误校正和检测数据集

为了克服对大多数语言缺乏大量平行标注数据的问题，本研究介绍了一种灵活可扩展的合成数据生成流程，应用于土耳其语。通过复杂的转换函数，实现了 20 多个专业编辑语法和拼写规则的生成，从而得到了 13 万句高质量平行句子。使用神经机器翻译、序列标注和前缀调参等三种基线模型，取得了良好的结果，并对领域外数据集进行了详尽实验，获得有关所提方法的可迁移性和鲁棒性的深入见解。通过发布数据集、基线模型和合成数据生成流程，我们鼓励进一步研究土耳其语错误检测和纠正。

Sep, 2023

纠错与提升：生成更好的错误以提高语法错误检测

本文研究如何通过有限的人工标注数据，使用基于注意力机制的序列到序列模型及简单的后处理程序、进行人工数据合成，以提高文本纠错的准确率。实验结果表明，我们的方法可生成质量较高的人工数据集，有效地提高了基于双向 LSTM 的文本纠错方法的性能水平。

Sep, 2018

大规模合成数据在语法错误校正中的评估

本文介绍了 3 种衡量大规模人工错误数据的质量度量标准：可靠性、多样性和分布一致性，并利用这些标准自动评估数据集的质量。同时，这些指标也可以帮助向数据生成系统提供反馈，从而提高动态生成的合成数据的质量。

Oct, 2022

通过多任务训练和优化训练计划实现高效的语法错误校正

本研究通过使用辅助任务和优化训练顺序，针对神经语法错误校正的问题，提出了一种高效利用数据的方法，利用较小规模的基于 BART 模型（400M 参数）的结果优于基于 T5-XXL 模型（11B 参数）的最佳模型。

Nov, 2023

利用机器翻译和句法模式进行人造错误生成

本研究探讨了两种替代方法：机器翻译和文本模式提取以解决短缺的数据对自动化错误检测的影响。实验表明：人工生成的错误明显提高了对 FCE 和 CoNLL 2014 数据集的错误检测精度。

Jul, 2017

语法错误校正模型能否实现语法概括？

本研究探索了语法纠错模型的泛化能力，通过合成和真实的数据集来评估其泛化性，结果发现目前标准的 Transformer-based GEC 模型在有限的词汇和语法环境下仍无法实现语法归纳。

Jun, 2021