降低鉴别器引导扩散模型中的曝光偏差
本研究引入了一个新的生成 SDE 模型,采用辅助鉴别器进行得分调整,通过训练鉴别器来估计预训练得分估计和真实数据得分之间的差距,进而进行调整。实验结果显示,该方法在无条件 / 有条件的 CIFAR-10 上实现了新的 SOTA FIDs 1.77/1.64,以及 ImageNet 256x256 上的新的 SOTA FID /sFID 3.18 / 4.53。
Nov, 2022
扩散模型具有令人印象深刻的生成能力,但其所谓的 “曝光偏差” 问题,即训练和抽样之间的输入不匹配,缺乏深入探索。本文通过首先对抽样分布进行分析建模,然后将每个抽样步骤的预测误差归因为曝光偏差问题的根本原因,对扩散模型中的曝光偏差问题进行了系统研究。此外,我们讨论了此问题的潜在解决方案,并提出了一个直观的度量方法。除了阐明曝光偏差问题,我们还提出了一种简单但有效的无需训练的方法,称为 Epsilon Scaling,以缓解曝光偏差。我们通过缩小网络输出(Epsilon)使抽样轨迹明确地接近训练阶段学习到的向量场,减轻了训练和抽样之间的输入不匹配。针对各种扩散框架(ADM,DDPM/DDIM,LDM),无条件和有条件设置以及确定性与随机抽样的实验验证了我们方法的有效性。
Aug, 2023
我们提出了一种设计空间,清晰地分离具体的设计选择,从采样和训练过程以及得分网络的预处理中识别了几个变化。通过改进,我们以比之前的设计更快的采样速度(每张图像 35 个网络评估)在条件设置下获得了 1.79 FID,无条件设置下获得了 1.97 FID,达到了新的最先进水平。
Jun, 2022
在高斯混合模型的背景下,我们的研究首次对扩散模型中引导信息对其性能的影响进行了理论研究,证明了引入扩散引导不仅提高了分类的置信度,还减少了分布的多样性,导致输出分布的微分熵的降低。我们的分析涵盖了广泛采用的采样方案,包括 DDPM 和 DDIM,利用了微分方程的比较不等式以及描述概率密度函数演化的 Fokker-Planck 方程,这也可能具有独立的理论兴趣。
Mar, 2024
本文提出了一种通过使用流形引导来减轻扩散模型中数据偏置的方法,该方法可以在不改变模型架构或需要标签或重新训练的情况下,改善生成图像的品质和无偏性。
Jul, 2023
通过对批处理内样本之间的流形结构进行结构引导的对抗训练,我们引入了一种新的 SADM 扩散模型,显著提高了现有扩散模型的性能,并在图像生成和跨域微调任务中优于现有方法,在 12 个数据集上建立了分辨率为 256x256 和 512x512 的图像网上新的 FID 技术,分别为 1.58 和 2.11。
Feb, 2024
本研究针对生成扩散模型,发现攻击点在于编码器模块,并提出了 Score Distillation Sampling (SDS) 策略来保护图像并减少内存占用,同时通过最小化语义损失生成更自然的扰动,希望能够为恶意扩散模仿的防御做出贡献。
Oct, 2023
为了解决传统训练方法与生成模型的条件抽样行为之间的差异,本文介绍了一种更新的损失函数,通过改进训练目标与抽样行为的一致性来提高样本质量,并对不同的引导比例进行了实验验证。
Nov, 2023
通过在扩散模型中引入两个辨别器(扩散辨别器和频谱图辨别器),我们提出了一种音频合成模型,其在各项评估指标中均优于 FastSpeech2 和 DiffGAN-TTS,并通过结构相似性指数、梅尔倒谱失真、F0 均方根误差、短时客观可懂性、语音质量感知评估和主观平均意见得分等客观和主观度量对该模型进行了评估。
Aug, 2023
在 Autoregressive Diffusion Models 中引入鉴别器指导,结合预先训练的生成模型,在离散情况下使用最优鉴别器可以纠正预训练模型并从底层数据分布中精确采样;针对使用次优鉴别器的实际情况,我们提出了一种顺序蒙特卡罗算法,在生成过程中迭代地考虑鉴别器的预测。我们在生成分子图的任务上对这些方法进行了测试,展示了鉴别器如何提高生成性能,超过仅使用预先训练的模型。
Oct, 2023