多语言语法错误修正的简单配方

Jun, 2021

A Simple Recipe for Multilingual Grammatical Error Correction

Sascha Rothe, Jonathan Mallinson, Eric Malmi, Sebastian Krause, Aliaksei Severyn

TL;DR本文提出了一种简单的方法来训练最先进的多语言语法纠错模型，使用大规模多语言语言模型来优化，建立并发布了基线数据集 cLang-8，通过单步微调得出了英语的精确度提高。

Abstract

This paper presents a simple recipe to train state-of-the-art multilingual grammatical error correction (GEC) models. We achieve this by first proposing a language-agnostic method to generate a large number of sy

multilingual grammatical error correction language models supervised sets training pipelines

发现论文，激发创造

预训练的跨语言语言模型在多语言语法错误纠正中的统一策略

本文提出了一种通用且与语言无关的多语言语法纠错方法，通过预训练的跨语言语言模型和英语与目标语言之间的平行翻译数据，构建了多样化的平行语法纠错数据，并利用该数据训练语法纠错模型，在不同语言的三个基准测试中取得了最先进的结果。

Jan, 2022

低资源场景下的语法错误修正

本文介绍了一个 Czech 语法纠错的新数据集 AKCES-GEC。我们证明使用合成平行语料库结合 Transformer 神经机器翻译模型可在 Czech，German 和 Russian 等多种语言的数据集上达到新的最高水平。AKCES-GEC 数据集已发表在 CC BY-NC-SA 4.0 许可下，GEC 模型源代码也可访问。

Oct, 2019

语法错误纠正的语料生成

本研究使用了序列到序列的框架对语法纠错进行建模。通过两种方法生成了大量的 Wikipedia 平行数据集，并使用迭代解码策略训练了神经语法纠错模型，最终在 CoNLL-2014 基准和 JFLEG 任务中实现了领先于现有技术的表现。

Apr, 2019

一个基于 BERT 的无监督语法错误纠正框架

本文提出了一种基于 BERT 的无监督语法错误校正框架，该框架将语法错误校正视为多类别分类任务，涵盖数据流构建模块、句子困境评分模块和误差检测和校正模块，并提出了一种新的伪困境评分方法来评估句子的可信度，并构建了 Tagalog 语料库进行研究，其表现竞争性较强，证明了该框架对于低资源语法错误校正任务很有用处。

Mar, 2023

大语言模型时代语法错误修正的支柱：针对现代方法的全面考察

本文通过实验研究语法错误修正，深入研究单模型系统的细微差别，比较集成和排名方法的效率，并探讨了大型语言模型在作为单模型系统、集成部分和排名方法时在语法错误修正上的应用。我们在 CoNLL-2014-test 和 BEA-test 上分别取得了 F_0.5 分数为 72.8 和 81.4 的最新最佳性能，为 GEC 的进一步发展和我们研究的可重复性提供支持。同时我们公开了我们的代码、训练模型和系统的输出结果，以便进一步推动 GEC 的发展。

Apr, 2024

基于有限状态转换器的神经语法错误纠正

介绍了一种基于语言模型和有限状态转换器的语法错误更正方法，与神经序列模型和基于短语的机器翻译相比具有更好的效果，同时无需大量的标注数据，并且在拥有标注数据的情况下，该方法也适用于基于短语的机器翻译。

Mar, 2019

使用迭代解码的弱监督语法错误校正

利用大量弱监督的双语数据，训练 Transformer 序列到序列模型，并采用迭代解码策略来进行语法错误纠正，最终在 CoNLL'14 基准测试上获得 F0.5 为 58.3，在 JFLEG 上获得 GLEU 为 62.4，即使不使用任何有标记的 GEC 数据，在 CoNLL'14 上的 F0.5 也能达到 48.2。

Oct, 2018

阿拉伯语语法错误检测和校正的进展：实证研究

本文报道了使用两个基于 Transformer 的预训练序列到序列模型进行多类阿拉伯语语法错误检测的结果，研究表明，使用语法错误信息作为辅助输入可以提高语法纠错性能；此外，研究还探讨了上下文形态预处理在辅助语法纠错系统方面的应用，并在两个阿拉伯语 GEC 共享任务数据集上取得了最先进的结果。

May, 2023

语法错误修正的综合性调查

GEC has seen significant progress thanks to machine learning and deep learning techniques, particularly in NMT based approaches, and this is the first survey to comprehensively cover literature in this area, examining datasets, annotation schemas, shared tasks, evaluation metrics, four basic approaches, six performance boosting techniques, two data augmentation methods, and future research directions.

May, 2020

ChatLang-8: 基于 LLM 的语法错误修正合成数据生成框架

我们探索和改进 LLM 的能力，以生成语法错误纠正（GEC）的数据，提出了一个自动化框架，并引入了一个名为 ChatLang-8 的新数据集，该数据集包含八种主题名词和 23 种语法类型，实验结果表明我们的框架和 ChatLang-8 对于提高 ChatGPT 的数据生成能力具有价值。

Jun, 2024