多架构多专家扩散模型

Jun, 2023

Multi-Architecture Multi-Expert Diffusion Models

Yunsung Lee, Jin-Young Kim, Hyojun Go, Myeongho Jeong, Shinhyeok Oh...

TL;DR本文提出了一种新颖的多专家方法 MEME，用于扩展扩散模型的过滤器以适应输入噪声的不同频率范围，并通过大量实验表明，MEME 在生成性能和计算效率方面优于传统方法

Abstract

diffusion models have achieved impressive results in generating diverse and realistic data by employing multi-step denoising processes. However, the need for accommodating significant variations in input noise at

diffusion models denoising processes multi-expert strategies meme computational efficiency

发现论文，激发创造

通过多阶段框架和定制的多解码器结构提高扩散模型的效率

通过多阶段框架和多解码器 U-net 架构，我们提出了一种增强扩散模型训练和采样效率的方案，通过定制每个时间步长的不同参数，同时保留所有时间步长共享的通用参数，有效地分配计算资源并减轻阶段间干扰。

Dec, 2023

并非所有步骤相等：高效生成与渐进传播模型

提出了一种名为 Step-Adaptive Training 的创新训练策略，通过在初始阶段训练一个基础去噪模型来涵盖所有时间步长，然后将时间步长分成不同的组，在每个组内进行微调以实现专门的去噪能力，这种方法不仅提高了模型性能，还显著降低了计算成本。

Dec, 2023

通过自适应嵌入和集成激发图像去噪扩散模型

图像降噪是计算摄影中的一个基本问题，要求在低畸变的情况下实现高质量的感知性能。最近，新兴的扩散模型在各种任务中实现了最先进的性能，在图像降噪方面显示了巨大的潜力。然而，为图像降噪刺激扩散模型并不直接，需要解决几个关键问题。我们提出了一种名为 “图像降噪扩散模型（DMID）” 的新策略，通过从降噪的角度理解和重新思考扩散模型来解决这些问题。我们的 DMID 策略在所有基于畸变和感知度量的高斯和真实图像降噪任务中实现了最先进的性能。

Jul, 2023

超越 U：打造更快速、更轻量级的扩散模型

利用连续动力系统设计一种新型去噪网络，以提高扩散模型的参数效率、收敛速度和噪声鲁棒性。与基准模型相比，该模型具有约四分之一的参数量和百分之三十的浮点操作数（FLOPs），推理速度提高了 70％，并且收敛到了更好的质量解。

Oct, 2023

动态双输出扩散模型

在这篇文章中，我们发现了扩散模型生成质量受到迭代次数限制的根本原因，并提出了一个简单而有效的解决方案来缓解这些影响。我们的解决方案可以应用于任何现有的扩散模型，并且在各种 SOTA 体系结构上运行多个数据集和配置进行实验和详尽的消融研究，证明能够立即提高它们的生成质量。

Mar, 2022

视觉中的扩散模型：一项调研

本综述为关于应用于计算机视觉的去噪扩散模型文章提供了全面的回顾，包括在领域中的理论和实际贡献，提供了三种通用扩散建模框架，并介绍了扩散模型与其他深度生成模型之间的关系，并引入了在计算机视觉中应用扩散模型的多个视角分类，最后，我们说明了离散模型的当前限制并预见了未来研究的一些有趣方向。

Sep, 2022

生成扩散模型的噪声估计

本文提出一种简单而通用的学习方案，可针对任何给定步骤逐步调整噪声参数，从而显著提高类比扩散模型的综合结果。

Apr, 2021

D3AD：动态去噪扩散概率模型用于异常检测

扩展前述的隐式条件方法，我们提出了一种新的框架，通过动态步长计算、无噪声缩放输入和潜在空间投影的方式增强了扩散模型的能力，有效地定位异常并在两个著名异常检测数据集上取得了最先进的性能。

Jan, 2024

异形山谷：扩散模型的全面分析

通过扩散模型（Diffusion Models），我们在生成高质量图像方面取得了重要进展，通过系统研究不同扩散模型架构的关键方面，如噪声调度、采样器和引导，我们深入探索了这些模型的核心操作原理。通过全面分析这些模型，我们揭示了它们隐藏的基础机制，揭示了对其有效性至关重要的隐藏关键因素。我们的分析强调了决定模型性能的隐藏关键因素，为扩散模型的发展提供了见解。

Feb, 2024

使用双判别器对去噪扩散模型进行对抗训练的高保真多说话人 TTS

通过在扩散模型中引入两个辨别器（扩散辨别器和频谱图辨别器），我们提出了一种音频合成模型，其在各项评估指标中均优于 FastSpeech2 和 DiffGAN-TTS，并通过结构相似性指数、梅尔倒谱失真、F0 均方根误差、短时客观可懂性、语音质量感知评估和主观平均意见得分等客观和主观度量对该模型进行了评估。

Aug, 2023