通过估计数据分布的比例进行离散扩散语言建模
现代自回归型大型语言模型在自然语言处理基准测试中表现出色并应用于实际领域。然而,它们仍然受到自回归训练范式的一些限制。本文评估了最近提出的基于得分熵离散扩散 (SEDD) 的方法,并表明它是自回归生成的有希望的替代方案,但也存在一些不足之处。我们实证地展示了 SEDD 的优势和挑战,并观察到 SEDD 在困惑度和 HellaSwag、Arc 或 WinoGrande 等基准测试上一般与自回归模型相匹配。此外,我们还展示了 SEDD 在推理延迟方面比 GPT-2 高效多达 4.5 倍。虽然 SEDD 允许在任意位置上进行条件生成,但在给定短提示的条件生成方面,SEDD 似乎比 GPT-2 稍逊一筹。最后,我们复现了原始 SEDD 论文的主要结果。
Jun, 2024
本文通过导出一个变分框架来推导连续时间生成扩散理论,并表明该理论中最小化匹配得分损失等价于最大化该理论内所提出的可逆 SDE 插件的似然度的下限。
Jun, 2021
本研究引入了一个新的生成 SDE 模型,采用辅助鉴别器进行得分调整,通过训练鉴别器来估计预训练得分估计和真实数据得分之间的差距,进而进行调整。实验结果显示,该方法在无条件 / 有条件的 CIFAR-10 上实现了新的 SOTA FIDs 1.77/1.64,以及 ImageNet 256x256 上的新的 SOTA FID /sFID 3.18 / 4.53。
Nov, 2022
提出了一种基于得分的图生成模型,采用连续时间框架下的新图扩散过程,通过随机微分方程系统对节点和边缘进行联合分布建模,并提出了适用于该过程的新颖得分匹配目标,通过求解反向扩散过程的方程系统高效采样。通过对多个数据集的验证,该方法在生成具有挑战性的现实世界图形时获得了优异的性能,并能够生成符合 训练分布的分子,表明其对于节点 - 边缘关系的建模具有有效性。
Feb, 2022
本文提出了一种基于随机微分方程的得分模型生成方法,通过缓慢注入噪声将复杂数据分布平滑地转换为已知的先验分布,并通过缓慢地消除噪声将先验分布转换回数据分布,同时利用基于神经网络的得分生成建模技术可以精确估计这些得分,并使用数值微分方程求解器生成样本。
Nov, 2020
该研究提出了反射扩散模型用于处理复杂任务中分数扩散模型中的数值误差,通过学习扰动得分函数,并扩展标准扩散模型的关键组成部分,包括扩散指导、基于似然的训练和 ODE 采样来从数据支持的反射随机微分方程开始进行反演。
Apr, 2023
该论文提出了基于 BSDE 的扩散模型,采用适应现有评分函数的方法,确定在达到所需终端分布所需的初始条件。研究表明,采用 Lipschitz 网络进行评分匹配具有优势,该方法具有应用于不同领域(如扩散反演、条件扩散和不确定性量化)的潜力。该工作对得分为基础的生成学习领域做出了贡献,并为解决实际问题提供了一个有前途的方向。
Apr, 2023