通过上下文数据增强来改进语法错误修正

ACLJun, 2024

通过上下文数据增强来改进语法错误修正

Improving Grammatical Error Correction via Contextual Data Augmentation

Yixuan Wang, Baoxin Wang, Yijun Liu, Qingfu Zhu, Dayong Wu...

TL;DR提出一种基于上下文增强的合成数据构建方法，用于语法错误校正，在生成模型的基础上结合基于规则的替换，以增加原始数据的错误分布一致性，并提出一种基于重标记的数据清洗方法来减小合成数据中噪声标签的影响。实验证明，该增强方法在有限的合成数据下始终优于强基线方法，并达到了最先进水平。

Abstract

Nowadays, data augmentation through synthetic data has been widely used in the field of grammatical error correction (GEC) to alleviate th

data augmentation synthetic data grammatical error correction contextual augmentation data cleaning

发现论文，激发创造

使用标记的错误模型生成语法纠错的合成数据

本研究使用自动注释工具 ERRANT 的错误类型标签指导合成数据生成，并比较了多种模型以研究如何基于错误类型标签从正确的句子生成不合语法的句子。在此基础上，构建一个规模较大的合成数据集，其错误标签的频率分布与给定开发集相匹配。该合成数据集具有较好的性能表现，可以显著提高 BEA-19 和 CoNLL14 测试集的性能，并且可以有效地适应 GEC 系统，特别是对于混合本地和非本地语言的英语人群，其效果优于由高质量句对组成的真实训练数据。

May, 2021

MixEdit: 重访数据增强与语法错误修正

通过生成伪数据进行数据增强已被证明在语法错误修正（GEC）领域中缓解数据稀缺性的挑战中有效。本文引入了可解释且计算高效的两个度量：亲和性和多样性，研究发现高亲和性且适当多样性的优秀 GEC 数据增强策略可以更好地提高 GEC 模型的性能，并提出了一种名为 MixEdit 的数据增强方法，通过策略性和动态地增加真实数据而不需要额外的单语语料库。在英文和中文 GEC 数据集上的实验证实了我们发现的正确性和 MixEdit 的有效性，结果表明 MixEdit 显著提高 GEC 模型性能并且与传统数据增强方法互补。

Oct, 2023

用于语法错误校正的可控数据合成方法

提出两种数据合成方法来解决语法错误纠正任务中缺乏平行数据的问题，并对不同数据进行实验，结果表明错误率为 40％，错误类型的比例相同可以更好地提高模型性能。最终，合成约 1 亿数据，实现了与使用两倍数据的最新技术相当的性能。

Sep, 2019

根据内容评估句子以生成语法错误

本文介绍一种基于学习的两阶段方法用于生成语法纠错中的合成数据，以缓解数据稀缺问题并提高性能。经过实验证明，我们所提出的方法训练出的模型优于其他先前工作中仅包含一个错误的句子合成数据所训练出的模型。

Aug, 2022

通过多任务训练和优化训练计划实现高效的语法错误校正

本研究通过使用辅助任务和优化训练顺序，针对神经语法错误校正的问题，提出了一种高效利用数据的方法，利用较小规模的基于 BART 模型（400M 参数）的结果优于基于 T5-XXL 模型（11B 参数）的最佳模型。

Nov, 2023

大规模合成数据在语法错误校正中的评估

本文介绍了 3 种衡量大规模人工错误数据的质量度量标准：可靠性、多样性和分布一致性，并利用这些标准自动评估数据集的质量。同时，这些指标也可以帮助向数据生成系统提供反馈，从而提高动态生成的合成数据的质量。

Oct, 2022

合成孤独：探索用于语法纠错的合成数据的负面影响

本文研究数据质量控制（噪声注入和平衡数据）对基于真实数据和合成数据训练的语法纠错模型的影响，并比较了两种方法的效果，结果表明，与真实数据情况相同，数据质量控制方法对真实数据训练的模型有积极影响，而对合成数据训练的模型影响为负。

Jun, 2023

利用未标注数据预训练具备复制增量结构的语法错误修正模型以提升性能

本文提出了一种复制增强的神经机器翻译方法，使用未标注的 One Billion Benchmark 进行降噪自编码器的预训练，并针对语法错误纠正任务进行了多任务学习，实现了 CoNLL-2014 数据集上的最优结果。

Mar, 2019

神经机器翻译的软上下文数据增强

本文提出了一种新颖的神经机器翻译数据增强方法，即通过语言模型提供的词汇分布来增强句子中的特定单词，从而比之前的增强方法更好地捕捉上下文语义信息。实验结果表明该方法在小规模和大规模机器翻译数据集上都优于强基线。

May, 2019

利用生成式语言模型进行神经机器翻译的数据增强

通过利用大规模语言模型如 ChatGPT，我们探索了基于提示的数据增强方法，用于产生合成的平行语料库，比较了三种不同提示的方法，并使用两个评估指标来衡量所生成的合成数据的多样性。这种方法无需额外的模型训练成本，与后向翻译等其他增强方法相比，提高了未增强基线的 0.68 BLEU 分数。

Jul, 2023