SSD-LM: 基于 Simplex 扩散和半自回归的语言模型,用于文本生成和模块化控制
通过研究和提出 Diffusion-based language models 的新方法,我们成功将 SSD-LM 模型从 0.4B 扩展至 13B 参数,同时提高了其训练和推断的效率,并能够根据指令进行微调,与自回归 LM 相比,Diffusion-based language models 在双向上下文方面的合作更加有效,从而提高了模型响应的质量和相关性。
May, 2023
现代自回归型大型语言模型在自然语言处理基准测试中表现出色并应用于实际领域。然而,它们仍然受到自回归训练范式的一些限制。本文评估了最近提出的基于得分熵离散扩散 (SEDD) 的方法,并表明它是自回归生成的有希望的替代方案,但也存在一些不足之处。我们实证地展示了 SEDD 的优势和挑战,并观察到 SEDD 在困惑度和 HellaSwag、Arc 或 WinoGrande 等基准测试上一般与自回归模型相匹配。此外,我们还展示了 SEDD 在推理延迟方面比 GPT-2 高效多达 4.5 倍。虽然 SEDD 允许在任意位置上进行条件生成,但在给定短提示的条件生成方面,SEDD 似乎比 GPT-2 稍逊一筹。最后,我们复现了原始 SEDD 论文的主要结果。
Jun, 2024
本研究提出了一种基于连续扩散的非自回归语言模型 Diffusion-LM,在语言生成的过程中能够通过简单的基于梯度的算法实现复杂的可控生成任务,并成功地应用在六个难度较大的细粒度控制任务之中,表现出优秀的性能。
May, 2022
使用 Self-correcting LLM-controlled Diffusion (SLD) 框架,该研究提出了一种迭代闭环过程,能够根据输入的提示生成图像、评估其与提示的对齐性,并纠正生成图像中的不准确性,从而提高文本到图像生成的正确性。该研究还发现,通过调整 LLM 的指令,SLD 可以执行图像编辑任务,弥合文本到图像生成与图像编辑流程之间的差距。
Nov, 2023
本文提出了全非自回归文本扩散模型 Text-to-text Self-conditioned Simplex Diffusion (TESS),将扩散过程应用于逻辑回归空间,具有新形式的自我条件和完全非自回归的特点。在包括摘要、文本简化、释义生成和问题生成在内的自然语言理解和生成任务中,我们证明了 TESS 胜过最先进的非自回归模型,并具有与预训练的自回归序列到序列模型竞争的能力。
May, 2023
介绍了一种新的生成文本的方法 - 自回归扩散 (AR-Diffusion),它通过引入动态去噪步骤来解决自然语言中的顺序依赖问题,在各种文本生成任务中表现优异。
May, 2023
该研究论文讨论了扩散模型在离散领域(如语言)的应用,提出将扩散模型作为基于预训练语言模型的生成算法的辅助方法,并通过在预训练的编码器 - 解码器模型的潜在空间中学习连续的潜在扩散模型,演示了其在从数据分布中生成文本方面的有效性。最终提出的潜在扩散模型不仅在生成新颖文本方面优于强有力的自回归基线,还支持可控的生成。
Dec, 2022
通过结合两种离散语音表示形式并使用两个序列到序列任务解耦合 TTS,最近在对可以以最低限度的监督进行训练的 TTS 方法中产生了越来越大的兴趣。我们提出了 Diff-LM-Speech,它在扩散模型的基础上将语义嵌入建模为基于 mel-spectrogram,并引入了基于变分自动编码器和韵律瓶颈的提示编码结构,以提高提示表示能力。我们还提出了 Tetra-Diff-Speech,通过设计一个持续时间扩散模型来实现多样化的韵律表达。同时,我们提出了 Tri-Diff-Speech 来验证语义编码的必要性。实验结果表明,我们的方法优于基准方法。我们提供了一个包含音频样本的网站。
Jul, 2023