用于语法错误校正的可控数据合成方法
本研究使用自动注释工具 ERRANT 的错误类型标签指导合成数据生成,并比较了多种模型以研究如何基于错误类型标签从正确的句子生成不合语法的句子。在此基础上,构建一个规模较大的合成数据集,其错误标签的频率分布与给定开发集相匹配。该合成数据集具有较好的性能表现,可以显著提高 BEA-19 和 CoNLL14 测试集的性能,并且可以有效地适应 GEC 系统,特别是对于混合本地和非本地语言的英语人群,其效果优于由高质量句对组成的真实训练数据。
May, 2021
本文介绍一种基于学习的两阶段方法用于生成语法纠错中的合成数据,以缓解数据稀缺问题并提高性能。经过实验证明,我们所提出的方法训练出的模型优于其他先前工作中仅包含一个错误的句子合成数据所训练出的模型。
Aug, 2022
提出一种基于上下文增强的合成数据构建方法,用于语法错误校正,在生成模型的基础上结合基于规则的替换,以增加原始数据的错误分布一致性,并提出一种基于重标记的数据清洗方法来减小合成数据中噪声标签的影响。实验证明,该增强方法在有限的合成数据下始终优于强基线方法,并达到了最先进水平。
Jun, 2024
本文介绍了 3 种衡量大规模人工错误数据的质量度量标准:可靠性、多样性和分布一致性,并利用这些标准自动评估数据集的质量。同时,这些指标也可以帮助向数据生成系统提供反馈,从而提高动态生成的合成数据的质量。
Oct, 2022
本研究使用了序列到序列的框架对语法纠错进行建模。通过两种方法生成了大量的 Wikipedia 平行数据集,并使用迭代解码策略训练了神经语法纠错模型,最终在 CoNLL-2014 基准和 JFLEG 任务中实现了领先于现有技术的表现。
Apr, 2019
本研究通过使用辅助任务和优化训练顺序,针对神经语法错误校正的问题,提出了一种高效利用数据的方法,利用较小规模的基于 BART 模型(400M 参数)的结果优于基于 T5-XXL 模型(11B 参数)的最佳模型。
Nov, 2023
本文讨论了使用不同子词单元和字节级编码方法对语法错误校正任务进行序列到序列学习的影响。使用含错误生成管道的合成数据和手动更正的真实数据对不同模型进行训练和微调,证明了字节级编码方法不仅可以更好地纠正简单的拼写错误,还可以在语义、风格和语法等方面更好地进行纠错,尤其适用于富有形态学特征的语言。
May, 2023
本研究探索了语法纠错模型的泛化能力,通过合成和真实的数据集来评估其泛化性,结果发现目前标准的 Transformer-based GEC 模型在有限的词汇和语法环境下仍无法实现语法归纳。
Jun, 2021
本文提出了一种通用且与语言无关的多语言语法纠错方法,通过预训练的跨语言语言模型和英语与目标语言之间的平行翻译数据,构建了多样化的平行语法纠错数据,并利用该数据训练语法纠错模型,在不同语言的三个基准测试中取得了最先进的结果。
Jan, 2022