AdaDiff:自适应步长选择的快速扩散
提出了一种名为 Step-Adaptive Training 的创新训练策略,通过在初始阶段训练一个基础去噪模型来涵盖所有时间步长,然后将时间步长分成不同的组,在每个组内进行微调以实现专门的去噪能力,这种方法不仅提高了模型性能,还显著降低了计算成本。
Dec, 2023
Adversarial Diffusion Distillation (ADD) is a new training approach that efficiently samples large-scale image diffusion models in 1-4 steps, outperforming existing few-step methods and reaching state-of-the-art performance in only four steps, enabling real-time image synthesis.
Nov, 2023
扩展前述的隐式条件方法,我们提出了一种新的框架,通过动态步长计算、无噪声缩放输入和潜在空间投影的方式增强了扩散模型的能力,有效地定位异常并在两个著名异常检测数据集上取得了最先进的性能。
Jan, 2024
我们提出了一种统一的框架来在扩散模型中实现有效的图像生成,其中搜索最佳时间步骤序列和压缩模型架构,无需进一步的训练。通过引入两阶段进化算法和使用生成和真实样本之间的 FID 评分来加速搜索过程,该方法在仅使用几个时间步骤时实现了出色的性能。
Sep, 2023
在这篇文章中,我们发现了扩散模型生成质量受到迭代次数限制的根本原因,并提出了一个简单而有效的解决方案来缓解这些影响。我们的解决方案可以应用于任何现有的扩散模型,并且在各种 SOTA 体系结构上运行多个数据集和配置进行实验和详尽的消融研究,证明能够立即提高它们的生成质量。
Mar, 2022
通过利用预训练的潜在扩散模型的生成特征,我们引入了一种名为 LADD 的新的蒸馏方法,它简化了训练并提高了性能,实现了高分辨率的多纵横比图像合成。我们将 LADD 应用于 Stable Diffusion 3 (8B) 以获得 SD3-Turbo,这是一个快速模型,仅使用四个无导向采样步骤就能达到与现有技术文本到图像生成器相当的性能。此外,我们还系统地研究了其扩展行为,并展示了 LADD 在图像编辑和修复等各种应用中的有效性。
Mar, 2024
通过对预训练的视频扩散模型进行对抗训练,我们提出了一种新颖的方法,通过单步合成高质量视频来获得单步视频生成模型,捕捉视频数据中的时间和空间依赖关系,从而大大减少计算成本,为实时视频合成和编辑铺平了道路。
Jun, 2024
本文提出了一种使用扩散去噪的新时域动作检测(TAD)方法,名为 DiffTAD。该方法采用生成建模方法,而非以往判别式学习方法,借助 Transformer decoder 中引入的时间位置查询设计来建立去噪过程,通过交叉步选择性调节算法来提高推断速度。在 ActivityNet 和 THUMOS 上广泛评估后,我们的 DiffTAD 相比以往的艺术选择方案,表现出卓越的性能。
Mar, 2023