将语法错误纠正作为类 GAN 的序列标注

ACLMay, 2021

将语法错误纠正作为类 GAN 的序列标注

Grammatical Error Correction as GAN-like Sequence Labeling

Kevin Parnow, Zuchao Li, Hai Zhao

TL;DR本研究提出了一种 GAN 类似的序列标注模型，采用 Gumbel-Softmax 采样和真实的错误分布来进行语法纠错，以解决传统模型训练与推理不匹配的问题，实验结果表明该方法有效，并改进了之前的最先进基准。

Abstract

In grammatical error correction (GEC), sequence labeling models enjoy fast inference compared to sequence-to-sequence models; however, inference in sequence labeling GEC models is an iterative process, as sentenc

grammatical error correction sequence labeling models gan-like sequence labeling model gumbel-softmax sampling state-of-the-art baseline

发现论文，激发创造

一个基于 BERT 的无监督语法错误纠正框架

本文提出了一种基于 BERT 的无监督语法错误校正框架，该框架将语法错误校正视为多类别分类任务，涵盖数据流构建模块、句子困境评分模块和误差检测和校正模块，并提出了一种新的伪困境评分方法来评估句子的可信度，并构建了 Tagalog 语料库进行研究，其表现竞争性较强，证明了该框架对于低资源语法错误校正任务很有用处。

Mar, 2023

基于有限状态转换器的神经语法错误纠正

介绍了一种基于语言模型和有限状态转换器的语法错误更正方法，与神经序列模型和基于短语的机器翻译相比具有更好的效果，同时无需大量的标注数据，并且在拥有标注数据的情况下，该方法也适用于基于短语的机器翻译。

Mar, 2019

通过混合细粒度加权训练进行语法错误修正

本研究提出了 MainGEC 方法，通过利用数据标注的准确性和潜在注释的多样性的内在差异设计了基于令牌级和句子级训练权重，并进行了混合粒度加权训练以改善 GEC 的训练效果。经验证实，MainGEC 在两个基准数据集上以 Seq2Seq 或 Seq2Edit 方式表现出一致且显著的性能提升，证明了混合粒度加权训练的有效性和优越性。进一步的消融实验验证了 MainGEC 中设计的两个粒度权重的有效性。

Nov, 2023

使用迭代解码的弱监督语法错误校正

利用大量弱监督的双语数据，训练 Transformer 序列到序列模型，并采用迭代解码策略来进行语法错误纠正，最终在 CoNLL'14 基准测试上获得 F0.5 为 58.3，在 JFLEG 上获得 GLEU 为 62.4，即使不使用任何有标记的 GEC 数据，在 CoNLL'14 上的 F0.5 也能达到 48.2。

Oct, 2018

自动语法错误纠正的人类水平性能达成：一项实证研究

该论文提出了一种新颖的流利性提升学习和推理机制，结合卷积 seq2seq 模型，成功将神经序列到序列的方法应用于语法错误纠正 (GEC)，在 CoNLL-2014 10 注释数据集上获得了 75.72（F_{0.5}）的最好表现，在 JFLEG 测试集上获得了 62.42（GLEU)）的最好表现，并成为首个在这两项基准测试中都达到人类水平性能（分别为 CoNLL-2014 72.58 和 JFLEG 62.37）的 GEC 系统。

Jul, 2018

序列到动作：由动作引导的序列生成进行语法错误更正

本文提出一种名为 Sequence-to-Action（S2A）的模型，可以联合输入源和目标句子，并在预测每个标记之前自动生成一个基于标记的动作序列，以提供更好的语法纠错性能。在英语和中文 GEC 任务的基准数据集上进行实验，证明我们的模型相对于基线模型具有更好的性能和生成结果的普适性和多样性。

May, 2022

语法错误修正的综合性调查

GEC has seen significant progress thanks to machine learning and deep learning techniques, particularly in NMT based approaches, and this is the first survey to comprehensively cover literature in this area, examining datasets, annotation schemas, shared tasks, evaluation metrics, four basic approaches, six performance boosting techniques, two data augmentation methods, and future research directions.

May, 2020

利用去噪抽象意义表示进行语法错误纠正

本文提出了一种基于 AMR 的 seq-to-seq 模型，并探索了降噪方法，以使 AMRs 更可靠，实验证明该模型可以用于语法纠错。

Jul, 2023

通过通用语言模型实现的检测纠正结构用于语法错误校正

本研究介绍一种名为 DeCoGLM 的综合检测和纠错结构，通过使用 General Language Model (GLM) 为基础，提供了在单个模型中进行多任务学习的方法，并表明该结构在大型语言模型中的有效性，为语法纠错提供了一个有前途的方向。

May, 2024

一种用于语法错误校正的嵌套注意力神经混合模型

通过基于嵌套注意力层的混合神经模型，将神经机器翻译方法发展应用于语法纠错，实验证明该模型对单词或字符水平上的错误检测和修复均具有良好的效果，并在 CoNLL-14 基准测试数据集上明显优于以往的神经模型，尤其对小修改的局部错误有明显的改善。

Jul, 2017