提出了一种基于残差去噪扩散模型(RDDM)的图像生成和恢复方法,该方法通过预测残差来表示从目标域到输入域的扩散方向,并同时估计噪声以考虑扩散过程中的随机扰动,从而实现了图像生成和恢复的统一。
Aug, 2023
通过使用预训练的 UNet(或 transformer)扩散模型仅需适量的目标数据(甚至只有合成数据),在基础视觉感知任务中能够实现出色的可传递性表现,包括单眼深度、表面法线、图像分割、抠图、人体姿势估计等。
Mar, 2024
该研究提出了一种创新的增强扩散模型的方法,通过整合新颖的多分辨率网络和时间相关的层归一化,以提高高保真图像生成的有效性。
Jun, 2024
本文研究了视觉 transformer 在基于扩散的生成学习中的有效性,并提出了一种新的模型 Diffusion Vision Transformers(DiffiT),该模型在多个条件和无条件综合任务中取得了最新的基准成绩,生成了高保真度图片。
Dec, 2023
传播模型是生成任务中表现出色的模型,然而大部分传播模型仅允许对数据分布进行线性变换,相比之下,更广泛的转换可能有助于更高效地训练生成分布并消除真实负对数似然和变分近似之间的差距。在本文中,我们介绍了神经传播模型 (NDMs),这是传统传播模型的泛化,可以定义和学习数据的时间相关的非线性转换。我们展示了如何在无需模拟的情况下使用变分上界来优化 NDMs。此外,我们导出了 NDMs 的时间连续形式,可以使用现成的数值 ODE 和 SDE 求解器进行快速可靠的推断。最后,我们通过在标准图像生成基准测试上的实验,包括 CIFAR-10、ImageNet 的降采样版本和 CelebA-HQ,展示了可学习转换的 NDMs 的实用性。NDMs 在似然度和生成高质量样本方面优于传统传播模型。
Oct, 2023
本文探讨了使用一种单一的预训练阶段进行生成性和判别性任务的统一表征学习器 —— 扩散模型,并发现这种模型在图像分类任务中具有优异的性能,特别是在经过精心特征选择和池化的情况下,扩散模型明显优于 BigBiGAN 等其他可比较的生成 - 判别方法
Jul, 2023
本文介绍了扩散模型领域的现状,并提出了改进现有问题的技术,包括模型速度提升、数据结构多样化、可能性优化和维数减少等。此外,还介绍了扩散模型的应用,包括计算机视觉、序列建模、音频和科学人工智能。
Sep, 2022
通过在图像神经场上训练扩散模型,我们可以学习连续图像的分布,并显示其在分辨率上的优势。我们提出了一种简单而有效的方法,可以将现有的潜在扩散自动编码器转换为图像神经场自动编码器。通过使用混合分辨率图像数据集对其进行训练,我们证明了图像神经场扩散模型优于固定分辨率扩散模型后跟超分辨率模型,并能高效地解决应用于不同尺度的逆问题。
本综述为关于应用于计算机视觉的去噪扩散模型文章提供了全面的回顾,包括在领域中的理论和实际贡献,提供了三种通用扩散建模框架,并介绍了扩散模型与其他深度生成模型之间的关系,并引入了在计算机视觉中应用扩散模型的多个视角分类,最后,我们说明了离散模型的当前限制并预见了未来研究的一些有趣方向。
这篇综述论文全面地评估了扩散模型技术,并探讨了它们与其他深度生成模型的相关性,建立了理论基础。同时,该论文还总结了扩散模型在医学、遥感和视频等领域应用的情况,提供了常用基准和评估指标的概述,以及针对三个主要任务的扩散模型技术的全面评估。最后,作者指出当前扩散模型的局限性,并提出了未来研究的七个有趣方向。这篇综述论文旨在加深人们对于在低层次视觉任务中的去噪扩散模型领域的全面理解。