通过混合训练来提高非自回归生成

Oct, 2021

通过混合训练来提高非自回归生成

Improving Non-autoregressive Generation with Mixup Training

Ting Jiang, Shaohan Huang, Zihan Zhang, Deqing Wang, Fuzhen Zhuang...

TL;DR本文介绍了一种基于预训练 transformer 模型的非自回归生成模型，并提出了一种名为 MIST 的迭代训练方法，无需在推断阶段牺牲推断速度即可获得更好的性能，在问题生成、摘要和释义生成等三个方面取得了最新的最好效果。

Abstract

While pre-trained language models have achieved great success on various natural language understanding tasks, how to effectively leverage them into non-autoregressive generation tasks remains a challenge. To sol

pre-trained language models non-autoregressive generation transformer models iterative training state-of-the-art results

发现论文，激发创造

预训练语言模型的非自回归式文本生成

本文提出了一种基于 BERT 的非自回归文本生成模型，通过引入新的解码策略（ratio-first）以及机制来解决 NAG 模型中的两个问题，并在三个文本生成任务上进行全面评估，证明该模型在速度和性能上均优于现有的非自回归基线模型，在许多强自回归模型上也取得了有竞争力的性能.

Feb, 2021

使用预训练语言模型、嵌入蒸馏和上采样策略改善 CTC 非自回归翻译质量

通过使用 CTC loss 进行微调 PMLM 模型、采用 MASK 插入方案进行上采样、使用嵌入蒸馏方法进一步提高性能，使得非自回归模型获得了更好的翻译质量和加速，并在多个数据集上优于自回归模型

Jun, 2023

使用单一非自回归变换器生成掩盖音频

我们介绍了 MAGNeT，一种遮蔽生成序列建模方法，直接操作多个音频令牌流。MAGNeT 由一个单阶段的非自回归变换器组成，在训练过程中，我们预测来自掩码调度器的遮蔽令牌跨度，而在推断过程中，我们逐步构建输出序列使用多个解码步骤。为了进一步提高生成音频的质量，我们引入了一种新的再评分方法，其中我们利用外部预训练模型对 MAGNeT 的预测进行再评分和排序，然后用于后续的解码步骤。最后，我们探索了 MAGNeT 的混合版本，其中我们在自回归方式下生成前几秒，而其余序列则并行解码。我们展示了 MAGNeT 在文本转音乐和文本转音频生成任务中的效率，并进行了大量的实证评估，考虑客观指标和人类研究。所提出的方法与评估基线相当，而且速度显著更快（比自回归基线快 7 倍）。通过消融研究和分析，我们阐明了构成 MAGNeT 的每个组成部分的重要性，并指出了自回归和非自回归建模之间的权衡，考虑到延迟、吞吐量和生成质量。我们的演示页面上提供了样本，位于此 https URL。

Jan, 2024

非自回归神经机器翻译

本文提出一种新的神经机器翻译模型，通过避免自回归的特性，以并行方式生成输出，进而做到了比先前方法更低的延迟时间。通过知识蒸馏，潜在变量，以及多样本策略梯度微调等技术手段，几乎没有损失性能，达到了先进的翻译效果。

Nov, 2017

一种自适应混合蒸馏方法用于非自回归生成

本文提出了一种基于自适应学习的混合蒸馏算法，用于进一步提高 BANG 生成质量。实验证明该方法有效性，并且不会影响推理延迟，相比 BANG 可以显著提高 BLEU 分数，在自回归生成方法方面还可获得超过 7 倍的加速。

May, 2022

神经机器翻译及其扩展中的非自回归生成调查

本文对不自回归生成（NAR）进行了系统的调查，并比较和讨论了不同方面的各种非自回归翻译（NAT）模型，包括数据处理、建模方法、训练标准、解码算法以及受到预训练模型的好处，同时简要回顾了 NAR 模型在机器翻译以外的其他应用，并讨论了未来探索的潜在方向。

Apr, 2022

非自回归模型的序列生成研究

该研究通过提出一种分析模型来表征 Non-autoregressive 模型生成不同序列任务的难易程度，并发现知识蒸馏和源 - 目标对齐技术可以帮助提升 Non-autoregressive 模型的准确性，减少目标序列的依赖性。

Apr, 2020

UT5：使用展开去噪预训练非自回归性 T5 模型

通过展开去噪并展示其在下游生成任务中的最先进结果，我们研究了 T5 模型的非自回归无监督预训练。

Nov, 2023

非自回归神经机器翻译的模仿学习

本文提出了基于仿真学习的非自回归机器翻译框架，该框架仍然具有快速翻译速度但与其自回归对应方法相比具有可比较的翻译性能。通过对 IWSLT16、WMT14 和 WMT16 数据集进行实验，发现我们提出的模型在保持翻译质量可比的同时，比自回归模型有更快的翻译速度。在推断时并行采样句子长度，WMT16 Ro→En 的 BLEU 值达到 31.85，而 IWSLT16 En→De 的 BLEU 值为 30.68。

Jun, 2019

帮助弱者使你强大：简单的多任务学习提升非自回归翻译者

提出一种多任务学习框架，加强非自回归神经机器翻译模型的学习信号并改进其准确性。实验证明该方法可以在不增加解码开销的情况下稳定提升多个非自回归基准模型的准确性。

Nov, 2022