语法错误修正的数据加权训练策略

ACLAug, 2020

语法错误修正的数据加权训练策略

Data Weighted Training Strategies for Grammatical Error Correction

Jared Lichtarge, Chris Alberti, Shankar Kumar

TL;DR本文通过使用新方法生成大量嘈杂的预训练数据以及发布质量更高的有限调整数据，解决了语法错误纠正领域的数据稀缺问题；同时，通过在小型、高质量数据集上导出大型预训练数据的示例级分数，针对 delta-log-perplexity 进行实证研究，以最佳方式将其纳入 GEC 的训练计划中，从而实现对 GEC 测试集的最佳结果。

Abstract

Recent progress in the task of grammatical error correction (GEC) has been driven by addressing data sparsity, both through new methods for generating large and noisy pretraining data and through the publication

grammatical error correction data sparsity neural machine translation example-level scores delta-log-perplexity

发现论文，激发创造

通过混合细粒度加权训练进行语法错误修正

本研究提出了 MainGEC 方法，通过利用数据标注的准确性和潜在注释的多样性的内在差异设计了基于令牌级和句子级训练权重，并进行了混合粒度加权训练以改善 GEC 的训练效果。经验证实，MainGEC 在两个基准数据集上以 Seq2Seq 或 Seq2Edit 方式表现出一致且显著的性能提升，证明了混合粒度加权训练的有效性和优越性。进一步的消融实验验证了 MainGEC 中设计的两个粒度权重的有效性。

Nov, 2023

语法错误修正中的自我完善策略

本文提出了自我精炼的方法，利用现有模型的预测一致性去除 Grammatical Error Correction（GEC）数据集中的噪声，实现了优于传统基线的去噪效果，并在任务特定技术的帮助下，在 CoNLL-2014、JFLEG 和 BEA-2019 基准测试中实现了最先进的性能。

Oct, 2020

通过多任务训练和优化训练计划实现高效的语法错误校正

本研究通过使用辅助任务和优化训练顺序，针对神经语法错误校正的问题，提出了一种高效利用数据的方法，利用较小规模的基于 BART 模型（400M 参数）的结果优于基于 T5-XXL 模型（11B 参数）的最佳模型。

Nov, 2023

一个基于 BERT 的无监督语法错误纠正框架

本文提出了一种基于 BERT 的无监督语法错误校正框架，该框架将语法错误校正视为多类别分类任务，涵盖数据流构建模块、句子困境评分模块和误差检测和校正模块，并提出了一种新的伪困境评分方法来评估句子的可信度，并构建了 Tagalog 语料库进行研究，其表现竞争性较强，证明了该框架对于低资源语法错误校正任务很有用处。

Mar, 2023

基于例子的语法错误修正解释性对于语言学习者的作用

本研究提出了一种基于样例的语法错误修正模型，旨在提高模型可解释性，并为语言学习者提供语法判断的基础，实验证明该方法可以提高修正的准确性。

Mar, 2022

根据内容评估句子以生成语法错误

本文介绍一种基于学习的两阶段方法用于生成语法纠错中的合成数据，以缓解数据稀缺问题并提高性能。经过实验证明，我们所提出的方法训练出的模型优于其他先前工作中仅包含一个错误的句子合成数据所训练出的模型。

Aug, 2022

利用 N-Best 假设改进 SMT 法进行语法纠错

本文提出了一种利用 SMT 方法生成的 n 种翻译假设来提高 GEC 准确率的新方法，即利用分类器评分来选择适当的编辑或对 n 种翻译假设进行重新排序，并将这些方法应用于使用 SMT 方法的最新 GEC 系统中，实验结果表明，我们的方法在 GEC 基准测试数据集上的准确性比已发表的最佳结果有显着提高。

Jun, 2016

使用迭代解码的弱监督语法错误校正

利用大量弱监督的双语数据，训练 Transformer 序列到序列模型，并采用迭代解码策略来进行语法错误纠正，最终在 CoNLL'14 基准测试上获得 F0.5 为 58.3，在 JFLEG 上获得 GLEU 为 62.4，即使不使用任何有标记的 GEC 数据，在 CoNLL'14 上的 F0.5 也能达到 48.2。

Oct, 2018

预训练的跨语言语言模型在多语言语法错误纠正中的统一策略

本文提出了一种通用且与语言无关的多语言语法纠错方法，通过预训练的跨语言语言模型和英语与目标语言之间的平行翻译数据，构建了多样化的平行语法纠错数据，并利用该数据训练语法纠错模型，在不同语言的三个基准测试中取得了最先进的结果。

Jan, 2022

多语言语法错误修正的简单配方

本文提出了一种简单的方法来训练最先进的多语言语法纠错模型，使用大规模多语言语言模型来优化，建立并发布了基线数据集 cLang-8，通过单步微调得出了英语的精确度提高。

Jun, 2021