Levenshtein Transformer

May, 2019

Jiatao Gu, Changhan Wang, Jake Zhao

TL;DR本文提出了一种部分自回归模型 Levenshtein Transformer，在线性时间复杂度内支持插入和删除操作，实现了互补的拆解和精细化的设计思路，成功地提高了机器翻译和文本自动编辑的效率。

Abstract

Modern neural sequence generation models are built to either generate tokens step-by-step from scratch or (iteratively) modify a sequence of tokens bounded by a fixed length. In this work, we develop levenshtein transfo

neural sequence generation levenshtein transformer autoregressive model dynamic length changes training techniques

发现论文，激发创造

插入变压器：通过插入操作实现灵活序列生成

本研究提出插入变换器，是基于插入操作的迭代，部分自回归模型，可在解码期间在序列中的任何位置插入标记，这种灵活性提供了多种性能优势，特别是在 WMT 2014 英德机器翻译任务中表现出色，成功恢复原始 Transformer 的性能，同时只需要对数次迭代即可完成。

Feb, 2019

利用 Levenshtein 变换的受词汇约束的神经机器翻译

本文提出了一种在神经机器翻译中加入词汇约束的简单有效算法，该算法可以在推理时注入术语约束，而不影响解码速度，并且无需修改训练流程，使用自定义字典即可运行，实验结果表明，我们的方法在英德 WMT 数据集上可以提高基线和之前方法的翻译质量。

Apr, 2020

将翻译记忆集成到非自回归机器翻译中

本文研究利用 Translation Memory 对 Levenshtein Transformer 进行改进来进行非自回归机器翻译，通过调整数据表示和引入额外的删除操作，提高了解码效率。同时讨论了利用 Translation Memory 训练模型的方法，减少了多模态问题，无需使用知识蒸馏。

Oct, 2022

Levenshtein 变换器及其变体的解码分析

Levenshtein transformer (LevT) 是一个非自回归机器翻译模型，具有高解码效率和可比的翻译质量，其中 BLEU 分数表明了它的并行解码与迭代修正过程。本研究关注 LevT 的解码器，分析了解码结果的长度、子词生成和删除模块的能力，并希望确定解码器的缺点以进行未来的改进。我们还比较了原始 LevT、知识蒸馏 LevT、带有翻译记忆的 LevT 以及带有翻译记忆的 KD-LevT 的翻译结果，以了解 KD 和翻译记忆如何提供帮助。

Feb, 2024

插入删除变换器

提出了插入删除变压器 —— 一种用于序列生成的新型基于变压器的神经结构和训练方法。其中模型由插入阶段和删除阶段两个执行迭代的阶段组成，通过插入模型输出直接获取删除模型的信号。在合成翻译任务上，相较于仅插入模型，插入删除变压器在 BLEU 分数上有显著的提高。

Jan, 2020

基于 Levenshtein 距离的词级别质量估计训练

本研究提出了一种新颖的方案，即使用 Levenshtein Transformer 对单词级别的翻译质量评估任务进行处理，并通过两阶段的迁移学习过程和启发式方法来解决数据匹配问题，针对 WMT 2020 QE 数据集，该方法在数据限制的情况下具有更高的数据效率。

Sep, 2021

基于编辑和重定位的编辑器 —— 用于具有软词汇约束的神经机器翻译

本文介绍了一种基于编辑的转换器，其通过编辑假设使序列生成更加灵活。实验证明，它在处理序列时，比 Levenshtein Transformer 更有效，并且在标准的机器翻译任务中可以实现与 Levenshtein Transformer 相媲美的翻译质量和更快的解码速度。

Nov, 2020

编码、标签、实现：高精度文本编辑

LaserTagger 是一种将文本生成转换为文本编辑任务的序列标注方法，并通过使用 BERT 编码器和自回归 Transformer 解码器的新型模型来预测编辑操作。在四个任务中测试表明，LaserTagger 在三个任务上取得了新的最优结果，并在训练示例数量有限的情况下优于 seq2seq 模型。同时，LaserTagger 在推理时的标注速度比相似的 seq2seq 模型快两个数量级。

Sep, 2019

循环神经网络中的序列级别训练

提出了一种新的序列级训练算法，使自然语言处理应用程序使用的语言模型在生成文本时更加强大和高效。这种方法能够直接优化在测试期间使用的指标，并且在三个不同的任务中，我们的方法优于其他几种基准方法。同时，在其他基准方法使用波束搜索时，我们的方法也具有竞争力，而且速度快几倍。

Nov, 2015

基于编辑的非自回归神经机器翻译的强化学习

非自回归（NAR）语言模型在神经机器翻译（NMT）中以低延迟著称。然而，由于较大的解码空间和准确捕捉目标单词间的依赖关系的困难，在 NAR 模型和自回归模型之间存在性能差距。为了解决这些挑战，我们将强化学习（RL）应用于编辑型 NAR 模型的典型例子 Levenshtein Transformer，通过使用自生成的数据，证明 RL 可以提高编辑型 NAR 模型的性能。我们探索了两种 RL 方法：逐步奖励最大化和情节奖励最大化，讨论了这两种方法的优缺点并进行了实证验证。此外，我们在实验中研究了温度设置对性能的影响，确认正确的温度设置对 NAR 模型的训练的重要性。

May, 2024