Diff-Glat: 并行序列到序列学习的扩散环视变换器
提出了一种基于 Glancing Language Model 的机器翻译方法,通过单次并行解码,实现了高效率、高质量的机器翻译效果,使得单次非自回归方法的性能优于以往所有方法,并且与 Transformer 相当,缩小了 0.25-0.9 BLEU 分数差距。
Aug, 2020
本文提出了一种使用离散潜在变量和课程学习技术的平行文本生成方法,不需要使用自回归模型训练即可解决数据集中的多模态问题,并在实验中取得优秀的表现,进一步拓宽了平行解码范式的应用场景。
Apr, 2022
通过自回归翻译和非自回归翻译的协同作用,提出了广义激进解码 (GAD)—— 无损加速自回归翻译的新解码范式,在保证翻译质量的前提下,大大提高了翻译效率,可用于 Abstractive Summarization 等其他序列到序列任务,是未来解码范式的一种潜在选择。
Mar, 2022
本文系统介绍了最新的扩散模型在 NAR(非自回归)文本生成领域中的进展,重点介绍了扩散模型的核心设计、预训练语言模型的应用,以及优化技术等。该综述旨在为研究人员提供一个有关文本扩散模型的系统参考。
Mar, 2023
本论文介绍了 SSD-LM - 一种扩散语言模型,它是半自回归的,可以迭代地生成文本块,在不适用 GPT-2 后,它在标准的质量和多样性指标上与 strong autoregressive 基线匹配或优于其性能
Oct, 2022
本文提出使用雅可比和高斯 - 塞德尔迭代方法对机器翻译的标准贪心自回归解码进行并行重构,以解决 transformers 对机器翻译的效率问题,实现了速度提高,而翻译质量保持。三种并行解码算法被提出并在不同语言和模型上进行了测试,速度提升最多可达 38%,在并行资源上实现的速度几乎达到 2 倍。同时,为了更好地理解模型的条件依赖关系和检查解码过程,提出了解码依赖图可视化器(DDGviz)
May, 2023
本文研究使用扩散模型(diffusion model)来处理序列到序列文本生成问题,探讨扩散模型的优越生成性能是否可转移到自然语言领域。提出 SeqDiffuSeq,一种使用自适应噪声调度技术的文本扩散模型,结合自编码器变压器(encoder-decoder Transformers)架构,实现去噪声函数建模,通过实验得出扩散模型在文本生成的质量和推理时间方面都表现良好。
Dec, 2022
该研究论文讨论了扩散模型在离散领域(如语言)的应用,提出将扩散模型作为基于预训练语言模型的生成算法的辅助方法,并通过在预训练的编码器 - 解码器模型的潜在空间中学习连续的潜在扩散模型,演示了其在从数据分布中生成文本方面的有效性。最终提出的潜在扩散模型不仅在生成新颖文本方面优于强有力的自回归基线,还支持可控的生成。
Dec, 2022
介绍了一种新的生成文本的方法 - 自回归扩散 (AR-Diffusion),它通过引入动态去噪步骤来解决自然语言中的顺序依赖问题,在各种文本生成任务中表现优异。
May, 2023
本论文提出一种用于快速序列生成的新型模型:半自回归 Transformer (SAT),该模型在保持全局自回归属性的同时减轻了本地自回归属性,从而能够在每个时间步骤同时产生多个连续的词。在英德翻译和中英翻译任务上进行的实验证明,SAT 实现了翻译质量和解码速度之间的良好平衡。
Aug, 2018