基于似然的扩散语言模型

May, 2023

Likelihood-Based Diffusion Language Models

Ishaan Gulrajani, Tatsunori B. Hashimoto

TL;DR该研究基于算法改进和计算资源扩展来提升扩散式语言模型，成功构建了一款表现优于已有模型的大规模扩散语言模型 Plaid 1B。

Abstract

Despite a growing interest in diffusion-based language models, existing work has not shown that these models can attain nontrivial likelihoods on standard language modeling benchmarks. In this work, we take the first steps towards closing the likelihood gap between autoregressive and d

diffusion-based language models autoregressive language models algorithmic improvements scaling analysis plaid 1b

发现论文，激发创造

扩散语言模型：随着规模和指导微调可执行多种任务

扩展极限语言模型、数据和任务规模可有效地使扩散式语言模型成为强大的语言学习者，并且通过指令调优可以实现零射击和小批量上下文学习能力。

Aug, 2023

SSD-2: 扩展和推断时间融合的扩散语言模型

通过研究和提出 Diffusion-based language models 的新方法，我们成功将 SSD-LM 模型从 0.4B 扩展至 13B 参数，同时提高了其训练和推断的效率，并能够根据指令进行微调，与自回归 LM 相比，Diffusion-based language models 在双向上下文方面的合作更加有效，从而提高了模型响应的质量和相关性。

May, 2023

简单有效的遮掩扩散语言模型

简化的掩码离散扩散模型在语言建模方面的性能优于以往认为的水平，可以用于训练只有编码器的高效采样语言模型，并在语言建模基准测试中取得了最新的最佳结果。

Jun, 2024

语言生成的潜在扩散

该研究论文讨论了扩散模型在离散领域（如语言）的应用，提出将扩散模型作为基于预训练语言模型的生成算法的辅助方法，并通过在预训练的编码器 - 解码器模型的潜在空间中学习连续的潜在扩散模型，演示了其在从数据分布中生成文本方面的有效性。最终提出的潜在扩散模型不仅在生成新颖文本方面优于强有力的自回归基线，还支持可控的生成。

Dec, 2022

扩散语言建模的承诺、展望与挑战

现代自回归型大型语言模型在自然语言处理基准测试中表现出色并应用于实际领域。然而，它们仍然受到自回归训练范式的一些限制。本文评估了最近提出的基于得分熵离散扩散 (SEDD) 的方法，并表明它是自回归生成的有希望的替代方案，但也存在一些不足之处。我们实证地展示了 SEDD 的优势和挑战，并观察到 SEDD 在困惑度和 HellaSwag、Arc 或 WinoGrande 等基准测试上一般与自回归模型相匹配。此外，我们还展示了 SEDD 在推理延迟方面比 GPT-2 高效多达 4.5 倍。虽然 SEDD 允许在任意位置上进行条件生成，但在给定短提示的条件生成方面，SEDD 似乎比 GPT-2 稍逊一筹。最后，我们复现了原始 SEDD 论文的主要结果。

Jun, 2024

SSD-LM: 基于 Simplex 扩散和半自回归的语言模型，用于文本生成和模块化控制

本论文介绍了 SSD-LM - 一种扩散语言模型，它是半自回归的，可以迭代地生成文本块，在不适用 GPT-2 后，它在标准的质量和多样性指标上与 strong autoregressive 基线匹配或优于其性能

Oct, 2022

AR-Diffusion: 自回归扩散模型用于文本生成

介绍了一种新的生成文本的方法 - 自回归扩散 (AR-Diffusion)，它通过引入动态去噪步骤来解决自然语言中的顺序依赖问题，在各种文本生成任务中表现优异。

May, 2023

文本扩散模型的迁移学习

我们研究了文本扩散能否替代自回归（AR）解码用于大型语言模型（LLMs）的训练和部署，并测试了通过一种轻量级适应过程称为 ``AR2Diff'' 将预训练的 AR 模型转换为文本扩散模型的潜力。我们发现，训练仅具有前缀 LM 目标的解码器模型在多项任务中表现最好。此外，我们还观察到通过 AR2Diff 对 AR 模型进行改进，并发现使用扩散解码的扩散模型比 AR 模型在多种情况下表现出更好的结果。这些结果非常有前景，因为相对未被充分探索的文本扩散比长文本生成的 AR 解码速度更快。

Jan, 2024

Diffusion-LM 提升可控文本生成能力

本研究提出了一种基于连续扩散的非自回归语言模型 Diffusion-LM，在语言生成的过程中能够通过简单的基于梯度的算法实现复杂的可控生成任务，并成功地应用在六个难度较大的细粒度控制任务之中，表现出优秀的性能。

May, 2022

采用基于扩散的语言模型实现细粒度文本风格转换

本文研究了基于扩散概率模型的语言模型在细粒度文本风格转换的任务上的应用，并证明了这种模型不仅可以在没有预训练权重、外部嵌入和语法解析器的情况下进行训练，而且在数据资源有限的情况下也能取得优异的效果。

May, 2023