基于似然的扩散语言模型
通过研究和提出 Diffusion-based language models 的新方法,我们成功将 SSD-LM 模型从 0.4B 扩展至 13B 参数,同时提高了其训练和推断的效率,并能够根据指令进行微调,与自回归 LM 相比,Diffusion-based language models 在双向上下文方面的合作更加有效,从而提高了模型响应的质量和相关性。
May, 2023
该研究论文讨论了扩散模型在离散领域(如语言)的应用,提出将扩散模型作为基于预训练语言模型的生成算法的辅助方法,并通过在预训练的编码器 - 解码器模型的潜在空间中学习连续的潜在扩散模型,演示了其在从数据分布中生成文本方面的有效性。最终提出的潜在扩散模型不仅在生成新颖文本方面优于强有力的自回归基线,还支持可控的生成。
Dec, 2022
现代自回归型大型语言模型在自然语言处理基准测试中表现出色并应用于实际领域。然而,它们仍然受到自回归训练范式的一些限制。本文评估了最近提出的基于得分熵离散扩散 (SEDD) 的方法,并表明它是自回归生成的有希望的替代方案,但也存在一些不足之处。我们实证地展示了 SEDD 的优势和挑战,并观察到 SEDD 在困惑度和 HellaSwag、Arc 或 WinoGrande 等基准测试上一般与自回归模型相匹配。此外,我们还展示了 SEDD 在推理延迟方面比 GPT-2 高效多达 4.5 倍。虽然 SEDD 允许在任意位置上进行条件生成,但在给定短提示的条件生成方面,SEDD 似乎比 GPT-2 稍逊一筹。最后,我们复现了原始 SEDD 论文的主要结果。
Jun, 2024
本论文介绍了 SSD-LM - 一种扩散语言模型,它是半自回归的,可以迭代地生成文本块,在不适用 GPT-2 后,它在标准的质量和多样性指标上与 strong autoregressive 基线匹配或优于其性能
Oct, 2022
介绍了一种新的生成文本的方法 - 自回归扩散 (AR-Diffusion),它通过引入动态去噪步骤来解决自然语言中的顺序依赖问题,在各种文本生成任务中表现优异。
May, 2023
我们研究了文本扩散能否替代自回归(AR)解码用于大型语言模型(LLMs)的训练和部署,并测试了通过一种轻量级适应过程称为 ``AR2Diff'' 将预训练的 AR 模型转换为文本扩散模型的潜力。我们发现,训练仅具有前缀 LM 目标的解码器模型在多项任务中表现最好。此外,我们还观察到通过 AR2Diff 对 AR 模型进行改进,并发现使用扩散解码的扩散模型比 AR 模型在多种情况下表现出更好的结果。这些结果非常有前景,因为相对未被充分探索的文本扩散比长文本生成的 AR 解码速度更快。
Jan, 2024
本研究提出了一种基于连续扩散的非自回归语言模型 Diffusion-LM,在语言生成的过程中能够通过简单的基于梯度的算法实现复杂的可控生成任务,并成功地应用在六个难度较大的细粒度控制任务之中,表现出优秀的性能。
May, 2022
本文研究了基于扩散概率模型的语言模型在细粒度文本风格转换的任务上的应用,并证明了这种模型不仅可以在没有预训练权重、外部嵌入和语法解析器的情况下进行训练,而且在数据资源有限的情况下也能取得优异的效果。
May, 2023