无注意力的扩散模型
本文提出了离散去噪扩散概率模型(D3PM),用于离散数据的扩散式生成模型,包括了仿真高斯核、嵌入空间中基于最邻近、引入吸收状态等过渡矩阵。研究表明过渡矩阵的选择对图像和文本领域下的生成模型结果至关重要,且提出的新损失函数在字符级别文本生成上取得了很好的效果。
Jul, 2021
该论文介绍了一种名为 Denoising Diffusion Step-aware Models (DDSM) 的新型框架,通过使用一系列根据每个生成步骤重要性进行自适应调整的神经网络,以进化搜索的方式解决了生成过程中存在的整体网络计算的瓶颈问题,有效地提高了扩散模型的效率,并且可以与其他以效率为目标的扩散模型进行无缝集成,从而扩大了计算节约的范围,同时不影响生成质量。
Oct, 2023
利用连续动力系统设计一种新型去噪网络,以提高扩散模型的参数效率、收敛速度和噪声鲁棒性。与基准模型相比,该模型具有约四分之一的参数量和百分之三十的浮点操作数(FLOPs),推理速度提高了 70%,并且收敛到了更好的质量解。
Oct, 2023
本篇论文提出了一种基于 DDPM 的新型框架,用于语义图像合成,通过条件扩散模型来处理语义布局与噪声图像,而引入分类器自由的引导采样策略来进一步提高了生成质量和语义可解释性。
Jun, 2022
通过学习逐渐将数据分布扩散为高斯噪声的过程,并以随机噪声进行迭代去噪处理,去噪扩散概率模型(DDPMs)在各种图像生成任务中取得了令人印象深刻的性能。本文提出了部分扩散模型(PartDiff),通过将图像扩散到中间潜在状态而不是纯随机噪声来生成新数据,并采用近似于低分辨率图像扩散的潜在状态来逼近中间潜在状态。实验证明,与纯扩散基础的超分辨率方法相比,部分扩散模型可以显著减少去噪步骤的数量而不损失生成的质量。
Jul, 2023
本文介绍了基于状态空间架构构建扩散模型的新探索,通过训练扩散模型用于图像数据,使用状态空间骨干替代传统的 U-Net 骨干,处理原始补丁或潜在空间的图像。通过对 DiS 的评估,包括无条件和类条件的图像生成场景,发现 DiS 在与同等大小的基于 CNN 或变压器的 U-Net 架构相比具有可比甚至更好的性能。此外,我们还分析了 DiS 的可扩展性,通过 Gflops 量化前向传递复杂性进行评估。通过增加深度 / 宽度或增加输入令牌的方式获得更高 Gflops 的 DiS 模型,始终表现出更低的 FID。在潜在空间中,DiS-H/2 模型在 256x256 和 512x512 分辨率下,达到了类条件 ImageNet 基准的性能水平,并显著减轻了计算负担。
Feb, 2024
通过在预训练的自编码器的潜在空间中应用扩散模型,引入交叉注意力层到模型体系结构中,以更少的计算要求取得接近最优的性能,实现高分辨率合成,缩小像素级 DMs 对计算资源的需求。
Dec, 2021
本文介绍了一种基于 Markovian 过程的 Upsampling Diffusion Probabilistic Model(UDPM),相较于传统的 Denoising Diffusion Probabilistic Models(DDPM),它在降低潜变量维度的同时,仅需 7 个扩散步骤即可生成 $256 imes 256$ 的高清图像。
May, 2023
本文提出了一种基于扩散模型的统一条件框架,结合了轻量级 UNet 和固有的差异模型来增强图像恢复的物理约束,采用基本和集成模块实现了对所有块的引导和其他辅助条件信息的整合,并提出了简单而有效的截距补丁分裂策略,将其用于低光量去噪、去模糊和 JPEG 图像恢复的挑战任务中,得到了显著的感知质量提升和恢复任务的推广。
May, 2023
Fast-DDPM 是一种简单而有效的方法,可同时提高训练速度、采样速度和生成质量,通过仅使用 10 个时间步进行训练和采样,相比 DDPM,Fast-DDPM 能够在医学图像生成任务中优于基于卷积网络和生成对抗网络的当前最先进方法,并将训练时间缩短了 5 倍,采样时间缩短了 100 倍。
May, 2024