预训练的跨语言语言模型在多语言语法错误纠正中的统一策略

Jan, 2022

预训练的跨语言语言模型在多语言语法错误纠正中的统一策略

A Unified Strategy for Multilingual Grammatical Error Correction with Pre-trained Cross-Lingual Language Model

Xin Sun, Tao Ge, Shuming Ma, Jingjing Li, Furu Wei...

TL;DR本文提出了一种通用且与语言无关的多语言语法纠错方法，通过预训练的跨语言语言模型和英语与目标语言之间的平行翻译数据，构建了多样化的平行语法纠错数据，并利用该数据训练语法纠错模型，在不同语言的三个基准测试中取得了最先进的结果。

Abstract

Synthetic data construction of grammatical error correction (GEC) for non-English languages relies heavily on human-designed and language-specific rules, which produce limited error-corrected patterns. In this paper, we propose a generic and language-independent strategy for

grammatical error correction multilingual gec pretrained cross-lingual language model parallel translation data state-of-the-art results

发现论文，激发创造

多语言语法错误修正的简单配方

本文提出了一种简单的方法来训练最先进的多语言语法纠错模型，使用大规模多语言语言模型来优化，建立并发布了基线数据集 cLang-8，通过单步微调得出了英语的精确度提高。

Jun, 2021

语法错误纠正的语料生成

本研究使用了序列到序列的框架对语法纠错进行建模。通过两种方法生成了大量的 Wikipedia 平行数据集，并使用迭代解码策略训练了神经语法纠错模型，最终在 CoNLL-2014 基准和 JFLEG 任务中实现了领先于现有技术的表现。

Apr, 2019

一个基于 BERT 的无监督语法错误纠正框架

本文提出了一种基于 BERT 的无监督语法错误校正框架，该框架将语法错误校正视为多类别分类任务，涵盖数据流构建模块、句子困境评分模块和误差检测和校正模块，并提出了一种新的伪困境评分方法来评估句子的可信度，并构建了 Tagalog 语料库进行研究，其表现竞争性较强，证明了该框架对于低资源语法错误校正任务很有用处。

Mar, 2023

将神经语法错误纠正作为低资源机器翻译任务进行处理

该论文提出了一套适用于大多数语法错误修正（GEC）环境的模型无关方法，包括添加源端噪音，领域自适应技术，GEC 特定训练目标，单语数据的迁移学习以及集成独立训练的 GEC 模型和语言模型。这些方法的综合效果导致比现有最优神经 GEC 模型更好的表现，表现优于 CoNLL-2014 基准测试中以前最好的神经 GEC 系统超过 10％M2，以及 JFLEG 测试集中的 5.9％。

Apr, 2018

利用未标注数据预训练具备复制增量结构的语法错误修正模型以提升性能

本文提出了一种复制增强的神经机器翻译方法，使用未标注的 One Billion Benchmark 进行降噪自编码器的预训练，并针对语法错误纠正任务进行了多任务学习，实现了 CoNLL-2014 数据集上的最优结果。

Mar, 2019

低资源场景下的语法错误修正

本文介绍了一个 Czech 语法纠错的新数据集 AKCES-GEC。我们证明使用合成平行语料库结合 Transformer 神经机器翻译模型可在 Czech，German 和 Russian 等多种语言的数据集上达到新的最高水平。AKCES-GEC 数据集已发表在 CC BY-NC-SA 4.0 许可下，GEC 模型源代码也可访问。

Oct, 2019

阿拉伯语语法错误检测和校正的进展：实证研究

本文报道了使用两个基于 Transformer 的预训练序列到序列模型进行多类阿拉伯语语法错误检测的结果，研究表明，使用语法错误信息作为辅助输入可以提高语法纠错性能；此外，研究还探讨了上下文形态预处理在辅助语法纠错系统方面的应用，并在两个阿拉伯语 GEC 共享任务数据集上取得了最先进的结果。

May, 2023

SynGEC: 带定制的 GEC 导向解析器的句法增强语法错误修正

该研究提出了一种名为 SynGEC 的句法增强语法纠错方法，它有效地将依赖句法信息纳入 GEC 模型的编码器部分，其中重点挑战是在处理不合语法的句子时，标准分析器是不可靠的。为了克服这一挑战，我们提出使用并行 GEC 训练数据作为枢轴构建定制的 GEC 定向解析器 (GOPar)，并采用图卷积网络来编码 GOPar 产生的源侧句法信息，将它们与转换器编码器的输出融合，在英汉 GEC 数据集上的实验表明，我们提出的 SynGEC 方法一致且大幅优于强大的基准，并取得了有竞争力的性能

Oct, 2022

基于有限状态转换器的神经语法错误纠正

介绍了一种基于语言模型和有限状态转换器的语法错误更正方法，与神经序列模型和基于短语的机器翻译相比具有更好的效果，同时无需大量的标注数据，并且在拥有标注数据的情况下，该方法也适用于基于短语的机器翻译。

Mar, 2019

ChatLang-8: 基于 LLM 的语法错误修正合成数据生成框架

我们探索和改进 LLM 的能力，以生成语法错误纠正（GEC）的数据，提出了一个自动化框架，并引入了一个名为 ChatLang-8 的新数据集，该数据集包含八种主题名词和 23 种语法类型，实验结果表明我们的框架和 ChatLang-8 对于提高 ChatGPT 的数据生成能力具有价值。

Jun, 2024