语法错误修正中的自我完善策略
本文通过使用新方法生成大量嘈杂的预训练数据以及发布质量更高的有限调整数据,解决了语法错误纠正领域的数据稀缺问题;同时,通过在小型、高质量数据集上导出大型预训练数据的示例级分数,针对 delta-log-perplexity 进行实证研究,以最佳方式将其纳入 GEC 的训练计划中,从而实现对 GEC 测试集的最佳结果。
Aug, 2020
GEC has seen significant progress thanks to machine learning and deep learning techniques, particularly in NMT based approaches, and this is the first survey to comprehensively cover literature in this area, examining datasets, annotation schemas, shared tasks, evaluation metrics, four basic approaches, six performance boosting techniques, two data augmentation methods, and future research directions.
May, 2020
在此综述文章中,我们介绍了在自然语言处理领域中的语法错误纠正任务,其中包括越来越流行的神经机器翻译系统,同时概述了任务中的语言学挑战以及常用的数据集和评价方法。我们还介绍了人类主观判断相关的可靠度指标,并总结了近年来的发展以及未来工作和仍面临的挑战,希望本综述能为新手或关注近期发展的研究人员提供全面的资源。
Nov, 2022
利用大量弱监督的双语数据,训练 Transformer 序列到序列模型,并采用迭代解码策略来进行语法错误纠正,最终在 CoNLL'14 基准测试上获得 F0.5 为 58.3,在 JFLEG 上获得 GLEU 为 62.4,即使不使用任何有标记的 GEC 数据,在 CoNLL'14 上的 F0.5 也能达到 48.2。
Oct, 2018
本研究提出了 MainGEC 方法,通过利用数据标注的准确性和潜在注释的多样性的内在差异设计了基于令牌级和句子级训练权重,并进行了混合粒度加权训练以改善 GEC 的训练效果。经验证实,MainGEC 在两个基准数据集上以 Seq2Seq 或 Seq2Edit 方式表现出一致且显著的性能提升,证明了混合粒度加权训练的有效性和优越性。进一步的消融实验验证了 MainGEC 中设计的两个粒度权重的有效性。
Nov, 2023
本研究提出了自动检测系统强度或多个系统组合的方法,在所有测试配置中一致优于最佳独立系统,并对 BERT 的应用进行了分析,同时呈现了对本任务创建的拼写检查器的实验结果。
Jun, 2019
本文介绍一种基于学习的两阶段方法用于生成语法纠错中的合成数据,以缓解数据稀缺问题并提高性能。经过实验证明,我们所提出的方法训练出的模型优于其他先前工作中仅包含一个错误的句子合成数据所训练出的模型。
Aug, 2022
对瑞典学生文本进行全面评估,发现在少样本环境下,GPT-3 明显优于之前瑞典语语法错误修正系统,同时发现当前评估方法存在不可取的偏见,建议采用人工编辑 GEC 系统的输出来分析达到本地人级别性能所需要的改变量,并提供一份包含人工编辑和语法性、流畅性和意义保持评估的数据集。
Aug, 2023
提出一种基于上下文增强的合成数据构建方法,用于语法错误校正,在生成模型的基础上结合基于规则的替换,以增加原始数据的错误分布一致性,并提出一种基于重标记的数据清洗方法来减小合成数据中噪声标签的影响。实验证明,该增强方法在有限的合成数据下始终优于强基线方法,并达到了最先进水平。
Jun, 2024