预训练语言模型的非自回归式文本生成
本文对不自回归生成(NAR)进行了系统的调查,并比较和讨论了不同方面的各种非自回归翻译(NAT)模型,包括数据处理、建模方法、训练标准、解码算法以及受到预训练模型的好处,同时简要回顾了 NAR 模型在机器翻译以外的其他应用,并讨论了未来探索的潜在方向。
Apr, 2022
本文旨在改进非自回归方法在机器翻译方面的表现,探讨了多种技术提升其翻译质量和效率,并将其在四个翻译任务上进行了评估,考虑到 tokenized BLEU 的使用不一致,我们贡献了标准化的 BLEU、chrF++ 及 TER 得分,并将代码开源集成于 fairseq 中以便重现研究结果。
May, 2022
该论文提出了 BANG,这是一种用于预训练模型的新方法,能够同时支持自回归生成、非自回归生成和半自回归生成,显著改善了问题生成和对话生成的性能。
Dec, 2020
提出一种 Pre-trained Directed Acyclic Transformer(PreDAT)和新颖的预训练任务来促进 NAR 生成中的预测一致性。在五个文本生成任务上的实验表明,PreDAT 明显优于现有的预先训练的 NAR 模型(平均得分 + 4.2),甚至在基于 n-gram 的指标上比预先训练的自回归基线效果更好,并且吞吐量提高了 17 倍。
Apr, 2023
该研究提出一种新的训练策略,使用最近邻作为 NAR 解码器的初始状态,并进行迭代编辑来改进文本生成质量,结果表明该方法在机器翻译和数据到文本任务上均获得了较高的翻译质量和更少的解码迭代次数。
Aug, 2022
该研究通过提出一种分析模型来表征 Non-autoregressive 模型生成不同序列任务的难易程度,并发现知识蒸馏和源 - 目标对齐技术可以帮助提升 Non-autoregressive 模型的准确性,减少目标序列的依赖性。
Apr, 2020
本研究提出了一种全非自回归神经机器翻译(NAT)的方案,采用依赖关系减少等方法,缩短推理延迟同时提升翻译质量,在三个翻译基准测试中实现了新的全自然机器翻译模型的最高水平,并在推理时间上取得了大约 16.5 倍的速度提升。
Dec, 2020
该论文提出了一种新的方法,通过利用隐藏状态和单词对齐的提示,帮助训练非自回归翻译模型,实现了比以前的非自回归翻译模型更显着的改进,甚至可以与强大的基于 LSTM 的自回归翻译模型基线相媲美但在推理速度上快一个数量级。
Sep, 2019
本文对不同的无自回归(NAR)建模方法进行了比较性研究,实验证明了 NAR 模型相较自回归基线的精度降低代价下,可以同时在序列中生成多个输出,具有在实时应用中优足的潜力,在自动语音识别领域的性能差距上得到了一些有趣的发现,并展示了结合这些技术来进一步提高精度并应用于无自回归端到端语音翻译的能力。
Oct, 2021
非自回归模型在生成图像时具有高效生成大量图像标记、低推理延迟等特点,与自回归模型相比,其参数规模为 346M,使用一台 V100 GPU 在 1 秒内生成了一张 256×256 像素的高质量图像。
Dec, 2023