使用迭代解码的弱监督语法错误校正

Oct, 2018

使用迭代解码的弱监督语法错误校正

Weakly Supervised Grammatical Error Correction using Iterative Decoding

Jared Lichtarge, Christopher Alberti, Shankar Kumar, Noam Shazeer, Niki Parmar

TL;DR利用大量弱监督的双语数据，训练 Transformer 序列到序列模型，并采用迭代解码策略来进行语法错误纠正，最终在 CoNLL'14 基准测试上获得 F0.5 为 58.3，在 JFLEG 上获得 GLEU 为 62.4，即使不使用任何有标记的 GEC 数据，在 CoNLL'14 上的 F0.5 也能达到 48.2。

Abstract

We describe an approach to grammatical error correction (GEC) that is effective at making use of models trained on large amounts of weakly supervised bitext. We train the Transformer sequence-to-sequence model on 4B tokens of Wikipedia revisions and employ an →

grammatical error correction transformer model weakly supervised training iterative decoding ensembling

发现论文，激发创造

GECToR -- 语法错误修正：标注，而非重写

本文介绍了一种使用 Transformer 编码器的简单高效的 GEC 序列标记工具，该系统采用合成数据进行预训练，并在连续两个阶段上进行微调，第一阶段在有错误的语料库上，第二阶段在有错误和无错误的平行语料库上。使用自定义的 token-level 变换将输入 token 映射到目标纠正。我们的最佳单模型 / 集合 GEC 标记器在 CoNLL-2014（测试）上的 $F_{0.5}$ 为 65.3 / 66.5，在 BEA-2019（测试）上为 $F_{0.5}$ 的 72.4 / 73.6。其推理速度比基于 Transformer 的 seq2seq GEC 系统快 10 倍。代码和训练模型公开可用。

May, 2020

语法错误纠正的语料生成

本研究使用了序列到序列的框架对语法纠错进行建模。通过两种方法生成了大量的 Wikipedia 平行数据集，并使用迭代解码策略训练了神经语法纠错模型，最终在 CoNLL-2014 基准和 JFLEG 任务中实现了领先于现有技术的表现。

Apr, 2019

一个基于 BERT 的无监督语法错误纠正框架

本文提出了一种基于 BERT 的无监督语法错误校正框架，该框架将语法错误校正视为多类别分类任务，涵盖数据流构建模块、句子困境评分模块和误差检测和校正模块，并提出了一种新的伪困境评分方法来评估句子的可信度，并构建了 Tagalog 语料库进行研究，其表现竞争性较强，证明了该框架对于低资源语法错误校正任务很有用处。

Mar, 2023

将语法错误纠正作为类 GAN 的序列标注

本研究提出了一种 GAN 类似的序列标注模型，采用 Gumbel-Softmax 采样和真实的错误分布来进行语法纠错，以解决传统模型训练与推理不匹配的问题，实验结果表明该方法有效，并改进了之前的最先进基准。

May, 2021

多语言语法错误修正的简单配方

本文提出了一种简单的方法来训练最先进的多语言语法纠错模型，使用大规模多语言语言模型来优化，建立并发布了基线数据集 cLang-8，通过单步微调得出了英语的精确度提高。

Jun, 2021

GEC-DePenD: 非自回归文法错误修正与解码的解耦置换

我们提出了一种新的非自回归方法来解决语法错误纠正的问题，该方法使用置换网络和基于逐步展开去噪自编码器的解码网络，通过一次前向传递找到最佳输入序列的排列，避免了自回归方法的构建，实验结果表明我们的网络比以前所知的非自回归方法有更好的效果，并达到了不使用特定语言合成数据方法的自回归方法的水平。

Nov, 2023

基于有限状态转换器的神经语法错误纠正

介绍了一种基于语言模型和有限状态转换器的语法错误更正方法，与神经序列模型和基于短语的机器翻译相比具有更好的效果，同时无需大量的标注数据，并且在拥有标注数据的情况下，该方法也适用于基于短语的机器翻译。

Mar, 2019

通过混合细粒度加权训练进行语法错误修正

本研究提出了 MainGEC 方法，通过利用数据标注的准确性和潜在注释的多样性的内在差异设计了基于令牌级和句子级训练权重，并进行了混合粒度加权训练以改善 GEC 的训练效果。经验证实，MainGEC 在两个基准数据集上以 Seq2Seq 或 Seq2Edit 方式表现出一致且显著的性能提升，证明了混合粒度加权训练的有效性和优越性。进一步的消融实验验证了 MainGEC 中设计的两个粒度权重的有效性。

Nov, 2023

自动语法错误纠正的人类水平性能达成：一项实证研究

该论文提出了一种新颖的流利性提升学习和推理机制，结合卷积 seq2seq 模型，成功将神经序列到序列的方法应用于语法错误纠正 (GEC)，在 CoNLL-2014 10 注释数据集上获得了 75.72（F_{0.5}）的最好表现，在 JFLEG 测试集上获得了 62.42（GLEU)）的最好表现，并成为首个在这两项基准测试中都达到人类水平性能（分别为 CoNLL-2014 72.58 和 JFLEG 62.37）的 GEC 系统。

Jul, 2018

学习如何结合语法纠错

本研究提出了自动检测系统强度或多个系统组合的方法，在所有测试配置中一致优于最佳独立系统，并对 BERT 的应用进行了分析，同时呈现了对本任务创建的拼写检查器的实验结果。

Jun, 2019