分层预测与深度监督的非自回归翻译
LaNMT 是一种基于最近的改进方法的潜变量非自回归模型,具有连续潜变量和确定性推断过程,在推断期间,翻译的长度自动适应,在 ASPEC Ja-En 数据集上的解码速度比自回归算法快 8.6 倍,在 WMT'14 En-De 数据集上,解码速度比自回归基线快 12.5 倍,且独立的并行解码和教师模型再评分可以将性能差距进一步降至 1.0 BLEU point。
Aug, 2019
本文提出了基于仿真学习的非自回归机器翻译框架,该框架仍然具有快速翻译速度但与其自回归对应方法相比具有可比较的翻译性能。通过对 IWSLT16、WMT14 和 WMT16 数据集进行实验,发现我们提出的模型在保持翻译质量可比的同时,比自回归模型有更快的翻译速度。在推断时并行采样句子长度,WMT16 Ro→En 的 BLEU 值达到 31.85,而 IWSLT16 En→De 的 BLEU 值为 30.68。
Jun, 2019
本文提出一种新的神经机器翻译模型,通过避免自回归的特性,以并行方式生成输出,进而做到了比先前方法更低的延迟时间。通过知识蒸馏,潜在变量,以及多样本策略梯度微调等技术手段,几乎没有损失性能,达到了先进的翻译效果。
Nov, 2017
本研究发现,在编码器足够深的情况下,单层自回归解码器可以显著地优于拥有相似推理速度的强大非自回归模型,并认为自回归基准与非自回归方法之间的速度劣势在某些方面被高估,这些结果为未来研究快速且准确的机器翻译建立了新的协议。
Jun, 2020
通过使用 CTC loss 进行微调 PMLM 模型、采用 MASK 插入方案进行上采样、使用嵌入蒸馏方法进一步提高性能,使得非自回归模型获得了更好的翻译质量和加速,并在多个数据集上优于自回归模型
Jun, 2023
本文旨在改进非自回归方法在机器翻译方面的表现,探讨了多种技术提升其翻译质量和效率,并将其在四个翻译任务上进行了评估,考虑到 tokenized BLEU 的使用不一致,我们贡献了标准化的 BLEU、chrF++ 及 TER 得分,并将代码开源集成于 fairseq 中以便重现研究结果。
May, 2022
本文提出了一种新型非自回归对话系统核心部件 ——Layered-Refine Transformer,其包含 Slot Label Generation 和 Layered Refine Mechanism,通过在训练期间有效获取依赖信息,实现了在推断时显著提高了 SLU 性能(总体准确率提高 1.5% 以上)并加速了(超过 10 倍)推断过程。
Aug, 2021
本文提出了一种叫做混合回归翻译的翻译模型,它结合了自回归翻译和非自回归翻译模式的优势,通过在自回归过程中预测部分结果,再通过非自回归方式填充其余结果的方式,开发出了一种基于这两种模式的翻译模型,并对其效率和准确性进行了评估和比较。
Oct, 2022
本论文提出一种用于快速序列生成的新型模型:半自回归 Transformer (SAT),该模型在保持全局自回归属性的同时减轻了本地自回归属性,从而能够在每个时间步骤同时产生多个连续的词。在英德翻译和中英翻译任务上进行的实验证明,SAT 实现了翻译质量和解码速度之间的良好平衡。
Aug, 2018
利用大规模单语语料,基于知识蒸馏的方式提升非自回归神经机器翻译模型的效果,并成功地在 WMT14 En-De 和 WMT16 En-Ro 新闻翻译任务上验证了模型的性能提升。
May, 2020