使用预训练的编码器 - 解码器模型加强语法错误修正的基线
本研究通过使用辅助任务和优化训练顺序,针对神经语法错误校正的问题,提出了一种高效利用数据的方法,利用较小规模的基于 BART 模型(400M 参数)的结果优于基于 T5-XXL 模型(11B 参数)的最佳模型。
Nov, 2023
利用大量弱监督的双语数据,训练 Transformer 序列到序列模型,并采用迭代解码策略来进行语法错误纠正,最终在 CoNLL'14 基准测试上获得 F0.5 为 58.3,在 JFLEG 上获得 GLEU 为 62.4,即使不使用任何有标记的 GEC 数据,在 CoNLL'14 上的 F0.5 也能达到 48.2。
Oct, 2018
本文提出了一种复制增强的神经机器翻译方法,使用未标注的 One Billion Benchmark 进行降噪自编码器的预训练,并针对语法错误纠正任务进行了多任务学习,实现了 CoNLL-2014 数据集上的最优结果。
Mar, 2019
我们提出了一种统一的解码干预框架,利用外部评论家来评估逐步生成的令牌的适当性,并在动态影响下一个令牌的选择。通过在英语和中文数据集上进行广泛实验,我们的框架始终优于强基准线,并达到与最先进方法相媲美的结果。
Oct, 2023
本文介绍了一种使用 Transformer 编码器的简单高效的 GEC 序列标记工具,该系统采用合成数据进行预训练,并在连续两个阶段上进行微调,第一阶段在有错误的语料库上,第二阶段在有错误和无错误的平行语料库上。使用自定义的 token-level 变换将输入 token 映射到目标纠正 。我们的最佳单模型 / 集合 GEC 标记器在 CoNLL-2014(测试)上的 $F_{0.5}$ 为 65.3 / 66.5,在 BEA-2019(测试)上为 $F_{0.5}$ 的 72.4 / 73.6。其推理速度比基于 Transformer 的 seq2seq GEC 系统快 10 倍。代码和训练模型公开可用。
May, 2020
本文研究了不同类型的基于 Transformer 的预训练模型(如 GPT-2,BERT 和 BART),并探索了在数据增强方面,如何在文本序列之前添加类标签提供了一种简单而有效的条件方法,预先训练的 Seq2Seq 模型在低资源环境下胜过了其他数据增强方法,在数据分布和类标签信息保存方面也进行了探讨。
Mar, 2020
本文研究如何将预训练的蒙面语言模型(例如 BERT)有效地纳入编码 - 解码模型,以进行语法错误纠正,并提出一种新的方法,在给定语法错误纠正语料库中对蒙面语言模型进行微调,并利用微调后的蒙面语言模型的输出作为语法错误纠正模型的额外特征,实现了蒙面语言模型的最大化利用,在 BEA-2019 和 CoNLL-2014 基准测试中获得了最好的性能表现。
May, 2020
本篇论文介绍了 GreekBART,这是第一个基于 BART-base 架构的 Seq2Seq 模型,经过大规模希腊语语料库的预训练。我们评估并比较了 GreekBART 与 BART-random、Greek-BERT 和 XLM-R 在各种区分性任务上的表现,并研究了其在两个来自 GreekSUM 的 Greek 语言生成任务中的性能。模型、代码和数据集将公开提供。
Apr, 2023
本文主要探讨使用不同的 back-translation 模型为基础生成的 pseudo data 对语法纠错模型的影响和差异,实验结果表明:不同模型生成的数据对不同错误类型的纠错趋势影响不同;而使用不同模型的组合生成的数据能够提高或插值单一模型的 F0.5 得分。
Apr, 2021
BART 是一种预训练序列到序列模型的去噪自编码器,通过使用 Transformer 架构,并使用一些创新方法,如随机调换原始数据序列的顺序和填充原始数据中的实体,使得 BART 在文本生成、理解任务以及抽象对话等方面性能表现出色,超越了 RoBERTa,并提供了 1.1 个 BLEU 的机器翻译增量。
Oct, 2019