输入扰动减少扩散模型中的暴露偏差
扩散模型具有令人印象深刻的生成能力,但其所谓的 “曝光偏差” 问题,即训练和抽样之间的输入不匹配,缺乏深入探索。本文通过首先对抽样分布进行分析建模,然后将每个抽样步骤的预测误差归因为曝光偏差问题的根本原因,对扩散模型中的曝光偏差问题进行了系统研究。此外,我们讨论了此问题的潜在解决方案,并提出了一个直观的度量方法。除了阐明曝光偏差问题,我们还提出了一种简单但有效的无需训练的方法,称为 Epsilon Scaling,以缓解曝光偏差。我们通过缩小网络输出(Epsilon)使抽样轨迹明确地接近训练阶段学习到的向量场,减轻了训练和抽样之间的输入不匹配。针对各种扩散框架(ADM,DDPM/DDIM,LDM),无条件和有条件设置以及确定性与随机抽样的实验验证了我们方法的有效性。
Aug, 2023
本文研究了扩散模型中存在的曝光偏差,并提出了一种名为 Time-Shift Sampler 的推理方法,该方法可以在不重新训练模型的情况下缓解曝光偏差,并通过实验结果证明了其有效性。
May, 2023
本文使用受非平衡热力学考虑的潜变量模型 —— 扩散概率模型,提出了高质量的图像合成结果。通过根据扩散概率模型和 Langevin 动力学的去噪得分匹配之间的新颖联系设计加权变分界限进行训练,获得了最佳结果;此外,我们的模型自然地采用渐进式有损解压缩方案,可以解释为自回归解码的一般化。在无条件的 CIFAR10 数据集上,我们获得了 9.46 的 Inception 得分和 3.17 的最先进的 FID 得分。在 256x256 LSUN 上,我们获得了与 ProgressiveGAN 相似的样本质量。
Jun, 2020
研究比较序列到序列问题中常用的扰动方法,包括定期抽样、对抗性扰动、词随机替换等,结果表明速度更快的简单技术如词元删除、输入符号的随机替换等与新提出的扰动方法具有可比性或者更好的性能。
Apr, 2021
提出一种新的采样设计方法,通过优化噪音分布以满足人类偏好,而不需要微调扩散模型,从而实现高质量的一步图像生成;实验证明,定制的噪音分布显著提高图像质量,并在计算成本仅略微增加的情况下取得了重要的突破,同时凸显了噪音优化的重要性,为高效和高质量的文本到图像合成铺平了道路。
Apr, 2024
基于扩散模型,我们提出了一种新型的基于文本到视频生成网络结构,名为增加扰动的潜在噪声与对抗训练(APLA)。该方法仅需要一个视频作为输入,并建立在预训练的稳定扩散网络上。我们引入了一个名为视频生成变换器(VGT)的辅助组件,用于从输入中提取扰动,从而在时间预测过程中改善不一致的像素。我们利用变换器和卷积的混合架构来弥补时间上的复杂性,从而提高视频内不同帧之间的一致性。实验证明,在生成的视频的一致性方面,我们取得了明显的定量和定性改进。
Aug, 2023
通过在模型训练过程中加入约束条件使其生成的样本更符合所施加的约束,从而提高生成样本与约束的一致性,且相较于现有方法有更好的性能且不影响推断速度;该方法还可以自然地防止过拟合。
Mar, 2024
利用预训练的扩散模型将目标领域图像投影到源领域,并通过伪标签集成迭代更新模型的方法,将模型适应和输入适应的优势相结合,从而减轻它们的缺点。在 CIFAR-10C 上的实验表明,我们的方法优于最强基线平均 1.7%,比最强的输入适应基线平均高出 18%。
Nov, 2023