生成扩散模型的噪声估计
提出了一种名为 Step-Adaptive Training 的创新训练策略,通过在初始阶段训练一个基础去噪模型来涵盖所有时间步长,然后将时间步长分成不同的组,在每个组内进行微调以实现专门的去噪能力,这种方法不仅提高了模型性能,还显著降低了计算成本。
Dec, 2023
在这篇文章中,我们发现了扩散模型生成质量受到迭代次数限制的根本原因,并提出了一个简单而有效的解决方案来缓解这些影响。我们的解决方案可以应用于任何现有的扩散模型,并且在各种 SOTA 体系结构上运行多个数据集和配置进行实验和详尽的消融研究,证明能够立即提高它们的生成质量。
Mar, 2022
该研究论文提出了一种基于扩散模型的合成逼真噪声的新方法,用于为困难获得真实数据的情景下的训练去噪模型提供大量高质量的数据,并在多个基准测试上证明了其方法的优越性.
May, 2023
通过在模型训练过程中加入约束条件使其生成的样本更符合所施加的约束,从而提高生成样本与约束的一致性,且相较于现有方法有更好的性能且不影响推断速度;该方法还可以自然地防止过拟合。
Mar, 2024
通过对任务困难度、收敛行为和概率分布间相对熵的变化进行综合观察,我们发现较早的时间步骤的去噪任务存在收敛缓慢和相对熵高的挑战,因此我们提出了一个易难混合的学习方案,借鉴了课程学习的思想,在训练过程中将时间步骤或噪声水平划分为难度递减的簇,并按顺序进行模型训练,以从易到难进行去噪任务,从而改变了同时跨越所有时间步骤训练扩散模型的传统方法。我们的方法通过利用课程学习的好处,提高了性能和收敛速度,并与扩散训练技术的现有改进保持正交性。我们通过在无条件生成、类条件生成和文本转图像生成等图像生成任务上的全面实验证实了这些优势。
Mar, 2024
AdaDiff 是一个轻量级框架,通过学习实例特定的步骤使用策略,优化了扩散模型的图像 / 视频生成过程,以最大化平衡推理时间和生成质量的回报函数,并在减少推理时间至少 33% 的情况下实现与基准方法相似的视觉质量。
Nov, 2023
本文提出了一种基于多模式条件 GAN,使其具有高样本质量、高模式覆盖和快速采样三个特性的去噪扩散生成对抗网络,同时在 CIFAR-10 数据集上比原扩散模型快 2000 倍,并且是第一种将采样成本降至足够低以便于应用于实际应用的模型。
Dec, 2021
扩展图像生成文献中的扩散模型框架以适应语音增强任务,通过探究扩散模型的设计方面,如神经网络预处理、训练损失权重、随机微分方程和反向过程中注入的随机性量,证明了先前的扩散模型语音增强系统的性能并非归因于干净和嘈杂信号之间的渐进转化,并表明适当的预处理、训练损失权重、随机微分方程和采样器选择可以在感知度度量方面优于流行的扩散模型语音增强系统,并减少约四分之一的计算成本。
Dec, 2023
本综述为关于应用于计算机视觉的去噪扩散模型文章提供了全面的回顾,包括在领域中的理论和实际贡献,提供了三种通用扩散建模框架,并介绍了扩散模型与其他深度生成模型之间的关系,并引入了在计算机视觉中应用扩散模型的多个视角分类,最后,我们说明了离散模型的当前限制并预见了未来研究的一些有趣方向。
Sep, 2022