语法错误修正中的自我完善策略

EMNLPOct, 2020

A Self-Refinement Strategy for Noise Reduction in Grammatical Error Correction

Masato Mita, Shun Kiyono, Masahiro Kaneko, Jun Suzuki, Kentaro Inui

TL;DR本文提出了自我精炼的方法，利用现有模型的预测一致性去除 Grammatical Error Correction（GEC）数据集中的噪声，实现了优于传统基线的去噪效果，并在任务特定技术的帮助下，在 CoNLL-2014、JFLEG 和 BEA-2019 基准测试中实现了最先进的性能。

Abstract

Existing approaches for grammatical error correction (GEC) largely rely on supervised learning with manually created GEC datasets. However, there has been little focus on verifying and ensuring the quality of the datasets, and on how lower-quality data might affect GEC →

grammatical error correction gec dataset self-refinement method denoising performance

发现论文，激发创造

利用去噪抽象意义表示进行语法错误纠正

本文提出了一种基于 AMR 的 seq-to-seq 模型，并探索了降噪方法，以使 AMRs 更可靠，实验证明该模型可以用于语法纠错。

Jul, 2023

语法错误修正的数据加权训练策略

本文通过使用新方法生成大量嘈杂的预训练数据以及发布质量更高的有限调整数据，解决了语法错误纠正领域的数据稀缺问题；同时，通过在小型、高质量数据集上导出大型预训练数据的示例级分数，针对 delta-log-perplexity 进行实证研究，以最佳方式将其纳入 GEC 的训练计划中，从而实现对 GEC 测试集的最佳结果。

Aug, 2020

语法错误修正的综合性调查

GEC has seen significant progress thanks to machine learning and deep learning techniques, particularly in NMT based approaches, and this is the first survey to comprehensively cover literature in this area, examining datasets, annotation schemas, shared tasks, evaluation metrics, four basic approaches, six performance boosting techniques, two data augmentation methods, and future research directions.

May, 2020

语法错误纠正：现有技术综述

在此综述文章中，我们介绍了在自然语言处理领域中的语法错误纠正任务，其中包括越来越流行的神经机器翻译系统，同时概述了任务中的语言学挑战以及常用的数据集和评价方法。我们还介绍了人类主观判断相关的可靠度指标，并总结了近年来的发展以及未来工作和仍面临的挑战，希望本综述能为新手或关注近期发展的研究人员提供全面的资源。

Nov, 2022

使用迭代解码的弱监督语法错误校正

利用大量弱监督的双语数据，训练 Transformer 序列到序列模型，并采用迭代解码策略来进行语法错误纠正，最终在 CoNLL'14 基准测试上获得 F0.5 为 58.3，在 JFLEG 上获得 GLEU 为 62.4，即使不使用任何有标记的 GEC 数据，在 CoNLL'14 上的 F0.5 也能达到 48.2。

Oct, 2018

通过混合细粒度加权训练进行语法错误修正

本研究提出了 MainGEC 方法，通过利用数据标注的准确性和潜在注释的多样性的内在差异设计了基于令牌级和句子级训练权重，并进行了混合粒度加权训练以改善 GEC 的训练效果。经验证实，MainGEC 在两个基准数据集上以 Seq2Seq 或 Seq2Edit 方式表现出一致且显著的性能提升，证明了混合粒度加权训练的有效性和优越性。进一步的消融实验验证了 MainGEC 中设计的两个粒度权重的有效性。

Nov, 2023

学习如何结合语法纠错

本研究提出了自动检测系统强度或多个系统组合的方法，在所有测试配置中一致优于最佳独立系统，并对 BERT 的应用进行了分析，同时呈现了对本任务创建的拼写检查器的实验结果。

Jun, 2019

根据内容评估句子以生成语法错误

本文介绍一种基于学习的两阶段方法用于生成语法纠错中的合成数据，以缓解数据稀缺问题并提高性能。经过实验证明，我们所提出的方法训练出的模型优于其他先前工作中仅包含一个错误的句子合成数据所训练出的模型。

Aug, 2022

评估优秀的语法错误修正

对瑞典学生文本进行全面评估，发现在少样本环境下，GPT-3 明显优于之前瑞典语语法错误修正系统，同时发现当前评估方法存在不可取的偏见，建议采用人工编辑 GEC 系统的输出来分析达到本地人级别性能所需要的改变量，并提供一份包含人工编辑和语法性、流畅性和意义保持评估的数据集。

Aug, 2023

通过上下文数据增强来改进语法错误修正

提出一种基于上下文增强的合成数据构建方法，用于语法错误校正，在生成模型的基础上结合基于规则的替换，以增加原始数据的错误分布一致性，并提出一种基于重标记的数据清洗方法来减小合成数据中噪声标签的影响。实验证明，该增强方法在有限的合成数据下始终优于强基线方法，并达到了最先进水平。

Jun, 2024