对大型序列标注器进行集成和知识蒸馏，用于语法纠错

Mar, 2022

对大型序列标注器进行集成和知识蒸馏，用于语法纠错

Ensembling and Knowledge Distilling of Large Sequence Taggers for Grammatical Error Correction

Maksym Tarnavskyi, Artem Chernodub, Kostiantyn Omelianchuk

TL;DR本文旨在改进 GEC 序列标记体系结构，特别是在大型配置中采用最新的基于 Transformer 的编码器进行集成。通过跨度级别编辑的多数投票方法来鼓励集成模型，我们的最佳集合在 BEA-2019（测试）上获得了 76.05 的 $F_{0.5}$ 分数，即使没有在合成数据集上进行预训练也是如此。此外，我们采用知识蒸馏技术，通过训练集合来生成新的合成数据集，并在公开的合成 PIE 数据集上完成预训练，最终获得 73.21 的 $F_{0.5}$ 分数，其代码、数据集和训练好的模型都可供公开获取。

Abstract

In this paper, we investigate improvements to the gec sequence tagging architecture with a focus on ensembling of recent cutting-edge transformer

gec sequence tagging transformer-based encoders ensemble knowledge distillation

发现论文，激发创造

GECToR -- 语法错误修正：标注，而非重写

本文介绍了一种使用 Transformer 编码器的简单高效的 GEC 序列标记工具，该系统采用合成数据进行预训练，并在连续两个阶段上进行微调，第一阶段在有错误的语料库上，第二阶段在有错误和无错误的平行语料库上。使用自定义的 token-level 变换将输入 token 映射到目标纠正。我们的最佳单模型 / 集合 GEC 标记器在 CoNLL-2014（测试）上的 $F_{0.5}$ 为 65.3 / 66.5，在 BEA-2019（测试）上为 $F_{0.5}$ 的 72.4 / 73.6。其推理速度比基于 Transformer 的 seq2seq GEC 系统快 10 倍。代码和训练模型公开可用。

May, 2020

使用迭代解码的弱监督语法错误校正

利用大量弱监督的双语数据，训练 Transformer 序列到序列模型，并采用迭代解码策略来进行语法错误纠正，最终在 CoNLL'14 基准测试上获得 F0.5 为 58.3，在 JFLEG 上获得 GLEU 为 62.4，即使不使用任何有标记的 GEC 数据，在 CoNLL'14 上的 F0.5 也能达到 48.2。

Oct, 2018

通过多任务训练和优化训练计划实现高效的语法错误校正

本研究通过使用辅助任务和优化训练顺序，针对神经语法错误校正的问题，提出了一种高效利用数据的方法，利用较小规模的基于 BART 模型（400M 参数）的结果优于基于 T5-XXL 模型（11B 参数）的最佳模型。

Nov, 2023

语法错误校正的扩展序列标记词汇表

本研究提出了一种基于序列标注方法的文法纠错方法，使用 SymSpell 和 LemmInflect 算法分别引入了拼写纠正和形态变化的特定标签，实现了小量标签纠正大量错误的目的，并在公共 BEA 基准测试中表现出了显著的性能提升。

Feb, 2023

语法错误纠正的语料生成

本研究使用了序列到序列的框架对语法纠错进行建模。通过两种方法生成了大量的 Wikipedia 平行数据集，并使用迭代解码策略训练了神经语法纠错模型，最终在 CoNLL-2014 基准和 JFLEG 任务中实现了领先于现有技术的表现。

Apr, 2019

有效的情感分析集成生成

我们通过使用传统的自然语言处理模型与 Transformer 模型构建了一种层次化的模型集成策略，并通过实证研究表明，这种模型集成策略在情感分析任务中显著优于传统的模型集成方法和 GPT-4 模型。

Feb, 2024

使用预训练的编码器 - 解码器模型加强语法错误修正的基线

本研究探索了使用双向和自回归转换器 (BART) 作为通用预训练编码器 - 解码器模型的实用性，以解决语法错误纠正问题中需要长时间预训练的问题，并发现单语和多语言 BART 模型在语法错误纠正方面取得了很高的表现。

May, 2020

利用未标注数据预训练具备复制增量结构的语法错误修正模型以提升性能

本文提出了一种复制增强的神经机器翻译方法，使用未标注的 One Billion Benchmark 进行降噪自编码器的预训练，并针对语法错误纠正任务进行了多任务学习，实现了 CoNLL-2014 数据集上的最优结果。

Mar, 2019

自动语法错误纠正的人类水平性能达成：一项实证研究

该论文提出了一种新颖的流利性提升学习和推理机制，结合卷积 seq2seq 模型，成功将神经序列到序列的方法应用于语法错误纠正 (GEC)，在 CoNLL-2014 10 注释数据集上获得了 75.72（F_{0.5}）的最好表现，在 JFLEG 测试集上获得了 62.42（GLEU)）的最好表现，并成为首个在这两项基准测试中都达到人类水平性能（分别为 CoNLL-2014 72.58 和 JFLEG 62.37）的 GEC 系统。

Jul, 2018

利用基于 Transformer 的集成学习来分类科学论文

本文介绍了一个系统，它包括四个独立子系统，能够将科学文献的摘要分类到给定的七个类别中，通过对这四个子系统的集成，可以得到一个在测试和验证集上 F1 分数为 0.93 的最终系统，优于现有的最先进模型 SciBERT 的 F1 分数。

Feb, 2021