AR-Diffusion: 自回归扩散模型用于文本生成
本文系统介绍了最新的扩散模型在 NAR(非自回归)文本生成领域中的进展,重点介绍了扩散模型的核心设计、预训练语言模型的应用,以及优化技术等。该综述旨在为研究人员提供一个有关文本扩散模型的系统参考。
Mar, 2023
Diffusion models have the potential for enhancing image-to-text generation and surpass Auto-Regressive models by introducing LaDiC, which incorporates context modeling, a dedicated latent space for captions, a regularization module, a diffuser for semantic conversion, and a Back&Refine technique, achieving state-of-the-art performance on the MS COCO dataset without pre-training or ancillary modules.
Apr, 2024
我们研究了文本扩散能否替代自回归(AR)解码用于大型语言模型(LLMs)的训练和部署,并测试了通过一种轻量级适应过程称为 ``AR2Diff'' 将预训练的 AR 模型转换为文本扩散模型的潜力。我们发现,训练仅具有前缀 LM 目标的解码器模型在多项任务中表现最好。此外,我们还观察到通过 AR2Diff 对 AR 模型进行改进,并发现使用扩散解码的扩散模型比 AR 模型在多种情况下表现出更好的结果。这些结果非常有前景,因为相对未被充分探索的文本扩散比长文本生成的 AR 解码速度更快。
Jan, 2024
非自回归模型在生成图像时具有高效生成大量图像标记、低推理延迟等特点,与自回归模型相比,其参数规模为 346M,使用一台 V100 GPU 在 1 秒内生成了一张 256×256 像素的高质量图像。
Dec, 2023
本文提出了一种基于扩散的概率端到端模型,用于生成原始语音波形,该模型通过自回归的方式顺序生成重叠帧,可以实现无限语音时长的合成,并保持高保真度和时间连贯性,通过直接处理波形具有优势,可以创建局部声学行为,同时该模型是随机的,生成略有差异的波形变体,实验结果表明相较于其他最先进的神经语音生成系统,所提出的模型具有更高的合成质量。
Oct, 2023
本文介绍了 AR 模型中的一种 Autoregressive Diffusion Models,相较于其他模型具有更高的性能表现。同时,作者还将该模型应用于无损压缩,并表明该模型在此任务上也表现出了极佳的结果,其适用于数据点的压缩及适应各种生成任务。
Oct, 2021
通过分析文本扩散模型的限制,本文提出了一种名为 TREC 的新型文本扩散模型,通过强化条件和时间感知方差缩放来减轻语言离散性问题,在与自回归、非自回归和扩散基线的对比实验中展示了 TREC 的竞争力,并通过定性分析显示其在优化样本中充分利用扩散过程的先进能力。
Feb, 2024
该研究论文讨论了扩散模型在离散领域(如语言)的应用,提出将扩散模型作为基于预训练语言模型的生成算法的辅助方法,并通过在预训练的编码器 - 解码器模型的潜在空间中学习连续的潜在扩散模型,演示了其在从数据分布中生成文本方面的有效性。最终提出的潜在扩散模型不仅在生成新颖文本方面优于强有力的自回归基线,还支持可控的生成。
Dec, 2022
我们提出了一种基于扩散的图生成模型,通过定义在离散图空间中操作的节点吸收扩散过程,设计了扩散排序网络和去噪网络,从而实现了更好或相当的生成性能,并且具有快速的生成速度。
Jul, 2023