非自回归机器翻译中的分离上下文 Transformer

ICMLJan, 2020

非自回归机器翻译中的分离上下文 Transformer

Non-Autoregressive Machine Translation with Disentangled Context Transformer

Jungo Kasai, James Cross, Marjan Ghazvininejad, Jiatao Gu

TL;DR本研究提出了一种基于注意力掩码的非自回归式 DisCo Transformer 神经网络模型，并结合并行的 Easy-first 推断算法，旨在同时生成所有标记并减少翻译延迟。相关实验证明该模型在非自回归机器翻译上比现有技术性能相当甚至更好，平均翻译时间明显减少。

Abstract

State-of-the-art neural machine translation models generate a translation from left to right and every step is conditioned on the previously generated tokens. The sequential nature of this generation process causes fundamental latency in inference since we cannot generate multiple toke

neural machine translation disco transformer non-autoregressive model decoding time parallel easy-first inference algorithm

发现论文，激发创造

非自回归神经机器翻译

本文提出一种新的神经机器翻译模型，通过避免自回归的特性，以并行方式生成输出，进而做到了比先前方法更低的延迟时间。通过知识蒸馏，潜在变量，以及多样本策略梯度微调等技术手段，几乎没有损失性能，达到了先进的翻译效果。

Nov, 2017

半自回归神经机器翻译

本论文提出一种用于快速序列生成的新型模型：半自回归 Transformer (SAT)，该模型在保持全局自回归属性的同时减轻了本地自回归属性，从而能够在每个时间步骤同时产生多个连续的词。在英德翻译和中英翻译任务上进行的实验证明，SAT 实现了翻译质量和解码速度之间的良好平衡。

Aug, 2018

Mask-Predict: 条件掩码语言模型的并行解码

本文介绍了一种利用掩码语言建模来训练非自回归机器翻译模型的方法，并通过对多个数据集的实验验证，证明该方法在翻译质量和速度方面都优于现有的非自回归翻译模型，并且接近于左到右的变换器模型。

Apr, 2019

分层预测与深度监督的非自回归翻译

本研究提出了 DSLP 模型，可以通过使用深度监督和层次预测训练非自回归 Transformer 以进行高效且高性能的机器翻译，实验结果表明，与基础模型相比，我们的方法始终改善了 BLEU 得分，尤其在推理效率方面提高了 14.8 倍。

Oct, 2021

非自回归机器翻译的基于提示的训练

该论文提出了一种新的方法，通过利用隐藏状态和单词对齐的提示，帮助训练非自回归翻译模型，实现了比以前的非自回归翻译模型更显着的改进，甚至可以与强大的基于 LSTM 的自回归翻译模型基线相媲美但在推理速度上快一个数量级。

Sep, 2019

神经机器翻译的异步双向解码

本文提出了一种基于双向解码器的神经机器翻译模型，其中正向解码器按原有的方法工作，但加入了逆向解码器，以利用源语言和目标语言的双向信息，从而提高翻译质量。实验结果表明，该模型在中英文和英德文翻译任务上均能够显著提高 NMT 的效果。

Jan, 2018

用句法监督的 Transformer 加速神经机器翻译

本文介绍了一种基于句法指导的 Transformer 模型（SynST），它可以在预测出分块解析树之后自动并行地生成目标语言的所有标记，从而提高了翻译速度。一系列的实验表明，相比基线的自回归 Transformer 模型，SynST 模型在 En-De 和 En-Fr 数据集上实现了更高的 BLEU 分数，且速度快了约 5 倍。

Jun, 2019

非自回归神经机器翻译的模仿学习

本文提出了基于仿真学习的非自回归机器翻译框架，该框架仍然具有快速翻译速度但与其自回归对应方法相比具有可比较的翻译性能。通过对 IWSLT16、WMT14 和 WMT16 数据集进行实验，发现我们提出的模型在保持翻译质量可比的同时，比自回归模型有更快的翻译速度。在推断时并行采样句子长度，WMT16 Ro→En 的 BLEU 值达到 31.85，而 IWSLT16 En→De 的 BLEU 值为 30.68。

Jun, 2019

双重注意力变形器机器翻译

本文提出了一个双重注意力变压器机器翻译模型，通过预训练的卷积神经网络联接空间视觉特征，通过两个分离的注意力部件，在加强的多头注意力层中自由处理源语言单词和图像部分，并在目标语言生成单词时，发现该模型可以有效地利用非常稀少的多模数据集和大规模文本数据集，实现了在英德多模机器翻译任务中的最佳效果

Jul, 2018

深度编码器，浅层解码器：重新评估非自回归机器翻译

本研究发现，在编码器足够深的情况下，单层自回归解码器可以显著地优于拥有相似推理速度的强大非自回归模型，并认为自回归基准与非自回归方法之间的速度劣势在某些方面被高估，这些结果为未来研究快速且准确的机器翻译建立了新的协议。

Jun, 2020