扩散语言建模的承诺、展望与挑战

Jun, 2024

扩散语言建模的承诺、展望与挑战

Promises, Outlooks and Challenges of Diffusion Language Modeling

Justin Deschenaux, Caglar Gulcehre

TL;DR现代自回归型大型语言模型在自然语言处理基准测试中表现出色并应用于实际领域。然而，它们仍然受到自回归训练范式的一些限制。本文评估了最近提出的基于得分熵离散扩散 (SEDD) 的方法，并表明它是自回归生成的有希望的替代方案，但也存在一些不足之处。我们实证地展示了 SEDD 的优势和挑战，并观察到 SEDD 在困惑度和 HellaSwag、Arc 或 WinoGrande 等基准测试上一般与自回归模型相匹配。此外，我们还展示了 SEDD 在推理延迟方面比 GPT-2 高效多达 4.5 倍。虽然 SEDD 允许在任意位置上进行条件生成，但在给定短提示的条件生成方面，SEDD 似乎比 GPT-2 稍逊一筹。最后，我们复现了原始 SEDD 论文的主要结果。

Abstract

The modern autoregressive large language models (LLMs) have achieved outstanding performance on NLP benchmarks, and they are deployed in the real world. However, they still suffer from limitations of the autoregressive training paradigm. For example, autoregressive token generation is

autoregressive large language models diffusion-based language models score entropy discrete diffusion (sedd)exposure bias inference latency

发现论文，激发创造

SSD-LM: 基于 Simplex 扩散和半自回归的语言模型，用于文本生成和模块化控制

本论文介绍了 SSD-LM - 一种扩散语言模型，它是半自回归的，可以迭代地生成文本块，在不适用 GPT-2 后，它在标准的质量和多样性指标上与 strong autoregressive 基线匹配或优于其性能

Oct, 2022

通过估计数据分布的比例进行离散扩散语言建模

使用评分熵离散化损失函数来优化基于扩散模型的生成模型，在与 GPT-2 进行比较时取得了竞争性的似然度，并且在算法上也带来了明显的优势。

Oct, 2023

SSD-2: 扩展和推断时间融合的扩散语言模型

通过研究和提出 Diffusion-based language models 的新方法，我们成功将 SSD-LM 模型从 0.4B 扩展至 13B 参数，同时提高了其训练和推断的效率，并能够根据指令进行微调，与自回归 LM 相比，Diffusion-based language models 在双向上下文方面的合作更加有效，从而提高了模型响应的质量和相关性。

May, 2023

基于似然的扩散语言模型

该研究基于算法改进和计算资源扩展来提升扩散式语言模型，成功构建了一款表现优于已有模型的大规模扩散语言模型 Plaid 1B。

May, 2023

语言生成的潜在扩散

该研究论文讨论了扩散模型在离散领域（如语言）的应用，提出将扩散模型作为基于预训练语言模型的生成算法的辅助方法，并通过在预训练的编码器 - 解码器模型的潜在空间中学习连续的潜在扩散模型，演示了其在从数据分布中生成文本方面的有效性。最终提出的潜在扩散模型不仅在生成新颖文本方面优于强有力的自回归基线，还支持可控的生成。

Dec, 2022

SED: 自我评价解码增强大型语言模型以实现更好的生成

现有的大语言模型通过单向自回归解码方法生成文本，但这种方法在处理不确定 token 时容易遇到次优选择，而该研究提出了一种名为 SED 的自我评估解码方法以优化模型生成。实验结果表明 SED 在各种任务和不同模型上具有良好的效果。

May, 2024

基于条件扩散模型和语言模型的最小监督语音合成：语义编码的比较研究

通过结合两种离散语音表示形式并使用两个序列到序列任务解耦合 TTS，最近在对可以以最低限度的监督进行训练的 TTS 方法中产生了越来越大的兴趣。我们提出了 Diff-LM-Speech，它在扩散模型的基础上将语义嵌入建模为基于 mel-spectrogram，并引入了基于变分自动编码器和韵律瓶颈的提示编码结构，以提高提示表示能力。我们还提出了 Tetra-Diff-Speech，通过设计一个持续时间扩散模型来实现多样化的韵律表达。同时，我们提出了 Tri-Diff-Speech 来验证语义编码的必要性。实验结果表明，我们的方法优于基准方法。我们提供了一个包含音频样本的网站。

Jul, 2023

扩散语言模型：随着规模和指导微调可执行多种任务

扩展极限语言模型、数据和任务规模可有效地使扩散式语言模型成为强大的语言学习者，并且通过指令调优可以实现零射击和小批量上下文学习能力。

Aug, 2023

简单有效的遮掩扩散语言模型

简化的掩码离散扩散模型在语言建模方面的性能优于以往认为的水平，可以用于训练只有编码器的高效采样语言模型，并在语言建模基准测试中取得了最新的最佳结果。

Jun, 2024

AR-Diffusion: 自回归扩散模型用于文本生成

介绍了一种新的生成文本的方法 - 自回归扩散 (AR-Diffusion)，它通过引入动态去噪步骤来解决自然语言中的顺序依赖问题，在各种文本生成任务中表现优异。

May, 2023