通过结构化偏好生成改进离散扩散模型

May, 2024

通过结构化偏好生成改进离散扩散模型

Improving Discrete Diffusion Models via Structured Preferential Generation

Severi Rissanen, Markus Heinonen, Arno Solin

TL;DR通过引入结构化的前向过程，改进离散扩散模型，提高对离散数据类型的生成性能。

Abstract

In the domains of image and audio, diffusion models have shown impressive performance. However, their application to discrete data types, such as language, has often been suboptimal compared to autoregressive gen

diffusion models discrete data autoregressive generative models structured forward process log-likelihood scores

发现论文，激发创造

语言生成的潜在扩散

该研究论文讨论了扩散模型在离散领域（如语言）的应用，提出将扩散模型作为基于预训练语言模型的生成算法的辅助方法，并通过在预训练的编码器 - 解码器模型的潜在空间中学习连续的潜在扩散模型，演示了其在从数据分布中生成文本方面的有效性。最终提出的潜在扩散模型不仅在生成新颖文本方面优于强有力的自回归基线，还支持可控的生成。

Dec, 2022

一个重新参数化的离散扩散模型用于文本生成

本研究使用离散扩散概率模型研究自然语言生成，提出了一种重新参数化离散扩散模型，并进行了大量实验以证明其在文本生成能力上的显著改进。

Feb, 2023

结构化数据生成扩散模型综述

本文综述了最近的扩散模型在结构化数据中的应用情况及相关研究工作，重点介绍了基于分数的扩散模型理论以及在数据驱动的常规任务和特定领域应用中采用结构化数据模型的先驱工作，分析和讨论了现有工作的局限性和挑战，并提出了潜在的研究方向。

Jun, 2023

离散扩散模型的快速采样通过去随机化

通过提出一种新颖的去随机扩散过程，我们加速了离散扩散模型的算法；我们还引入了一种连续时间采样算法，能够比有限步长的离散时间采样算法提供更好的样本质量。大量实验表明，在自然语言生成和机器翻译任务中，我们的方法在离散扩散模型的生成速度和样本质量方面表现出优越性。

Dec, 2023

使用扩散模型生成符号音乐

本文提出了一种基于预训练变分自编码器的离散领域参数化的扩散模型训练技术，用于离散和连续领域的生成导致更优结果，并在应用于符号音乐领域时表现出很强的无条件生成和条件填充结果，相比基于自回归语言模型的连续嵌入操作更具可行性。

Mar, 2021

构建桥梁：理解和扩展扩散生成模型

本研究重新考虑扩散模型的总体框架，将其视为具有未观察到扩散轨迹的潜在变量模型，并应用于数据不受限制的领域。利用最大似然估计，我们表明模型构建和潜在路径的插补都可以构造扩散桥过程，实现端点的确定值和约束条件，并提供一套系统的研究和工具，进而提出了学习扩散生成模型的第一个理论误差分析和学习不同离散和受限领域数据的简单而统一的方法。实验证明，我们的方法在生成图像、语义分段和 3D 点云方面表现出色。

Aug, 2022

一种灵活的扩散模型

本研究提出了一个通用的模型参数化框架，尤其是针对前向 SDE 的空间部分，通过理论保障和实验证明了其优越性。

Jun, 2022

类别数据的连续扩散

本文介绍了 CDCD 框架，该框架是一种对分类数据进行扩散建模的方法，同时保持了连续时间和输入空间的特性，并在多个语言建模任务中证明了其有效性。

Nov, 2022

使用软屏蔽噪声的更便宜、更好的扩散语言模型

介绍了一种新的语言建模扩散模型 Masked-Diffuse LM，通过语言学特征和软掩蔽添加文本失真，通过交叉熵损失函数在每个扩散步骤中直接预测分类分布，以更高效和直接的方式连接连续空间和离散空间，优于目前最先进的扩散模型。

Apr, 2023

研究语音增强扩散模型的设计空间

扩展图像生成文献中的扩散模型框架以适应语音增强任务，通过探究扩散模型的设计方面，如神经网络预处理、训练损失权重、随机微分方程和反向过程中注入的随机性量，证明了先前的扩散模型语音增强系统的性能并非归因于干净和嘈杂信号之间的渐进转化，并表明适当的预处理、训练损失权重、随机微分方程和采样器选择可以在感知度度量方面优于流行的扩散模型语音增强系统，并减少约四分之一的计算成本。

Dec, 2023