使用预训练的编码器 - 解码器模型加强语法错误修正的基线

ACLMay, 2020

使用预训练的编码器 - 解码器模型加强语法错误修正的基线

Stronger Baselines for Grammatical Error Correction Using Pretrained Encoder-Decoder Model

Satoru Katsumata, Mamoru Komachi

TL;DR本研究探索了使用双向和自回归转换器 (BART) 作为通用预训练编码器 - 解码器模型的实用性，以解决语法错误纠正问题中需要长时间预训练的问题，并发现单语和多语言 BART 模型在语法错误纠正方面取得了很高的表现。

Abstract

Studies on grammatical error correction (GEC) have reported the effectiveness of pretraining a seq2seq model with a large amount of pseudodata

grammatical error correction seq2seq model pseudodata bidirectional and auto-regressive transformers pretrained model

发现论文，激发创造

通过多任务训练和优化训练计划实现高效的语法错误校正

本研究通过使用辅助任务和优化训练顺序，针对神经语法错误校正的问题，提出了一种高效利用数据的方法，利用较小规模的基于 BART 模型（400M 参数）的结果优于基于 T5-XXL 模型（11B 参数）的最佳模型。

Nov, 2023

使用迭代解码的弱监督语法错误校正

利用大量弱监督的双语数据，训练 Transformer 序列到序列模型，并采用迭代解码策略来进行语法错误纠正，最终在 CoNLL'14 基准测试上获得 F0.5 为 58.3，在 JFLEG 上获得 GLEU 为 62.4，即使不使用任何有标记的 GEC 数据，在 CoNLL'14 上的 F0.5 也能达到 48.2。

Oct, 2018

利用未标注数据预训练具备复制增量结构的语法错误修正模型以提升性能

本文提出了一种复制增强的神经机器翻译方法，使用未标注的 One Billion Benchmark 进行降噪自编码器的预训练，并针对语法错误纠正任务进行了多任务学习，实现了 CoNLL-2014 数据集上的最优结果。

Mar, 2019

通过解码干预提升 Seq2Seq 语法错误修正

我们提出了一种统一的解码干预框架，利用外部评论家来评估逐步生成的令牌的适当性，并在动态影响下一个令牌的选择。通过在英语和中文数据集上进行广泛实验，我们的框架始终优于强基准线，并达到与最先进方法相媲美的结果。

Oct, 2023

GECToR -- 语法错误修正：标注，而非重写

本文介绍了一种使用 Transformer 编码器的简单高效的 GEC 序列标记工具，该系统采用合成数据进行预训练，并在连续两个阶段上进行微调，第一阶段在有错误的语料库上，第二阶段在有错误和无错误的平行语料库上。使用自定义的 token-level 变换将输入 token 映射到目标纠正。我们的最佳单模型 / 集合 GEC 标记器在 CoNLL-2014（测试）上的 $F_{0.5}$ 为 65.3 / 66.5，在 BEA-2019（测试）上为 $F_{0.5}$ 的 72.4 / 73.6。其推理速度比基于 Transformer 的 seq2seq GEC 系统快 10 倍。代码和训练模型公开可用。

May, 2020

使用预训练 Transformer 模型进行数据增强

本文研究了不同类型的基于 Transformer 的预训练模型（如 GPT-2，BERT 和 BART），并探索了在数据增强方面，如何在文本序列之前添加类标签提供了一种简单而有效的条件方法，预先训练的 Seq2Seq 模型在低资源环境下胜过了其他数据增强方法，在数据分布和类标签信息保存方面也进行了探讨。

Mar, 2020

编码器 - 解码器模型在语法错误纠正中可以受益于预训练的掩码语言模型

本文研究如何将预训练的蒙面语言模型（例如 BERT）有效地纳入编码 - 解码模型，以进行语法错误纠正，并提出一种新的方法，在给定语法错误纠正语料库中对蒙面语言模型进行微调，并利用微调后的蒙面语言模型的输出作为语法错误纠正模型的额外特征，实现了蒙面语言模型的最大化利用，在 BEA-2019 和 CoNLL-2014 基准测试中获得了最好的性能表现。

May, 2020

GreekBART：第一个预训练的希腊序列到序列模型

本篇论文介绍了 GreekBART，这是第一个基于 BART-base 架构的 Seq2Seq 模型，经过大规模希腊语语料库的预训练。我们评估并比较了 GreekBART 与 BART-random、Greek-BERT 和 XLM-R 在各种区分性任务上的表现，并研究了其在两个来自 GreekSUM 的 Greek 语言生成任务中的性能。模型、代码和数据集将公开提供。

Apr, 2023

使用后翻译模型进行语法错误纠正比较

本文主要探讨使用不同的 back-translation 模型为基础生成的 pseudo data 对语法纠错模型的影响和差异，实验结果表明：不同模型生成的数据对不同错误类型的纠错趋势影响不同；而使用不同模型的组合生成的数据能够提高或插值单一模型的 F0.5 得分。

Apr, 2021

BART：自然语言生成、翻译和理解的去噪序列到序列预训练

BART 是一种预训练序列到序列模型的去噪自编码器，通过使用 Transformer 架构，并使用一些创新方法，如随机调换原始数据序列的顺序和填充原始数据中的实体，使得 BART 在文本生成、理解任务以及抽象对话等方面性能表现出色，超越了 RoBERTa，并提供了 1.1 个 BLEU 的机器翻译增量。

Oct, 2019