通过迭代改善的方法进行非自回归神经序列建模
LaNMT 是一种基于最近的改进方法的潜变量非自回归模型,具有连续潜变量和确定性推断过程,在推断期间,翻译的长度自动适应,在 ASPEC Ja-En 数据集上的解码速度比自回归算法快 8.6 倍,在 WMT'14 En-De 数据集上,解码速度比自回归基线快 12.5 倍,且独立的并行解码和教师模型再评分可以将性能差距进一步降至 1.0 BLEU point。
Aug, 2019
该研究提出了一种基于连续空间的非自回归机器翻译推理过程,采用连续潜在变量模型进行翻译,使用梯度优化方法在推理时逐步细化翻译,相比于现有方法在标记空间进行细化,该方法具备计算效率高、较高的边缘概率和 BLEU 评分等优势。
Sep, 2020
非自回归序列模型为了减少推理时间,通常会假定每个单词的生成过程彼此独立,但这会导致结果不一致。本文提出了一种结构化推理模块,使用高效的 CRF 近似算法来建模动态转换技术,以提高翻译的一致性,并在不影响推理速度的前提下,显著提高了翻译性能。
Oct, 2019
本研究提出了一种基于迭代重对齐的端到端 Transformer 模型,在语音识别中优化了 CTC(Connectionist Temporal Classification)对齐,允许长度可变的插入和删除操作。该模型在一个迭代过程中具有很强的性能,甚至具有更浅的编码器。
Oct, 2020
提出基于 CTC 的非自回归结构,可用于神经机器翻译,相比其他的非自回归结构,本文所提出的模型可以进行端到端的训练,并在 WMT 英罗马尼亚和英德数据集上实现了可比的翻译质量及较大的速度提升。
Nov, 2018
通过多路推断并使用 Query-CTC 损失函数训练的并行解码序列到序列视觉 - 语言模型(NARVL),不再限制为条件分布,能够建模多个推断路径的联合分布,从而在推断时减少了线性复杂度与顺序生成的常态联合推断模式相比达到了与最先进自回归模型相当的性能提升,并且速度更快。
Mar, 2024
非自回归(NAR)语言模型在神经机器翻译(NMT)中以低延迟著称。然而,由于较大的解码空间和准确捕捉目标单词间的依赖关系的困难,在 NAR 模型和自回归模型之间存在性能差距。为了解决这些挑战,我们将强化学习(RL)应用于编辑型 NAR 模型的典型例子 Levenshtein Transformer,通过使用自生成的数据,证明 RL 可以提高编辑型 NAR 模型的性能。我们探索了两种 RL 方法:逐步奖励最大化和情节奖励最大化,讨论了这两种方法的优缺点并进行了实证验证。此外,我们在实验中研究了温度设置对性能的影响,确认正确的温度设置对 NAR 模型的训练的重要性。
May, 2024
本文提出的一种新方法使用统一的 EM 框架共同优化 AR 和 NAR 模型,以有效地引导系统消除输出序列中的多模态,评估结果表明,该方法在机器翻译任务上实现了具有竞争力的性能,同时显著减少了推理延迟。
Jun, 2020
提出了一种非自回归解码框架用于图片描述,该框架使用位置对齐和推理策略来指导更进一步的句子生成,实验结果表明此模型相对于自回归模型有显著的加速效果,并且相较于 NA 模型有更好的表现。
Dec, 2019
提出一种使用生成流的非自回归序列生成模型,以提高非自回归序列生成的效率。在三个神经机器翻译基准数据集上进行了评估,与最先进的非自回归神经机器翻译模型性能相当且几乎不随序列长度而变化。
Sep, 2019