本研究使用自动注释工具 ERRANT 的错误类型标签指导合成数据生成,并比较了多种模型以研究如何基于错误类型标签从正确的句子生成不合语法的句子。在此基础上,构建一个规模较大的合成数据集,其错误标签的频率分布与给定开发集相匹配。该合成数据集具有较好的性能表现,可以显著提高 BEA-19 和 CoNLL14 测试集的性能,并且可以有效地适应 GEC 系统,特别是对于混合本地和非本地语言的英语人群,其效果优于由高质量句对组成的真实训练数据。
May, 2021
提出两种数据合成方法来解决语法错误纠正任务中缺乏平行数据的问题,并对不同数据进行实验,结果表明错误率为 40%,错误类型的比例相同可以更好地提高模型性能。最终,合成约 1 亿数据,实现了与使用两倍数据的最新技术相当的性能。
Sep, 2019
本文介绍了 3 种衡量大规模人工错误数据的质量度量标准:可靠性、多样性和分布一致性,并利用这些标准自动评估数据集的质量。同时,这些指标也可以帮助向数据生成系统提供反馈,从而提高动态生成的合成数据的质量。
Oct, 2022
通过人工制造包含错误的句子,使用序列到序列模型来实现逐步的语法错误纠正,并比较其效果与规则化的方法。
Jul, 2019
提出一种基于上下文增强的合成数据构建方法,用于语法错误校正,在生成模型的基础上结合基于规则的替换,以增加原始数据的错误分布一致性,并提出一种基于重标记的数据清洗方法来减小合成数据中噪声标签的影响。实验证明,该增强方法在有限的合成数据下始终优于强基线方法,并达到了最先进水平。
Jun, 2024
本研究探索了语法纠错模型的泛化能力,通过合成和真实的数据集来评估其泛化性,结果发现目前标准的 Transformer-based GEC 模型在有限的词汇和语法环境下仍无法实现语法归纳。
Jun, 2021
本研究通过使用辅助任务和优化训练顺序,针对神经语法错误校正的问题,提出了一种高效利用数据的方法,利用较小规模的基于 BART 模型(400M 参数)的结果优于基于 T5-XXL 模型(11B 参数)的最佳模型。
Nov, 2023
本文研究如何通过有限的人工标注数据,使用基于注意力机制的序列到序列模型及简单的后处理程序、进行人工数据合成,以提高文本纠错的准确率。实验结果表明,我们的方法可生成质量较高的人工数据集,有效地提高了基于双向 LSTM 的文本纠错方法的性能水平。
Sep, 2018
本文通过使用新方法生成大量嘈杂的预训练数据以及发布质量更高的有限调整数据,解决了语法错误纠正领域的数据稀缺问题;同时,通过在小型、高质量数据集上导出大型预训练数据的示例级分数,针对 delta-log-perplexity 进行实证研究,以最佳方式将其纳入 GEC 的训练计划中,从而实现对 GEC 测试集的最佳结果。
Aug, 2020
本研究提出了 MainGEC 方法,通过利用数据标注的准确性和潜在注释的多样性的内在差异设计了基于令牌级和句子级训练权重,并进行了混合粒度加权训练以改善 GEC 的训练效果。经验证实,MainGEC 在两个基准数据集上以 Seq2Seq 或 Seq2Edit 方式表现出一致且显著的性能提升,证明了混合粒度加权训练的有效性和优越性。进一步的消融实验验证了 MainGEC 中设计的两个粒度权重的有效性。