扩散模型在图像分类上胜过 GAN
通过使用预训练的 UNet(或 transformer)扩散模型仅需适量的目标数据(甚至只有合成数据),在基础视觉感知任务中能够实现出色的可传递性表现,包括单眼深度、表面法线、图像分割、抠图、人体姿势估计等。
Mar, 2024
扩散模型和表示学习之间的相互作用进行了综述,包括数学基础、去噪网络架构和引导方法等方面,阐述了与扩散模型和表示学习相关的各种方法,并提出了对扩散模型和表示学习分类的综合概述以及现有关注点和潜在研究领域。
Jun, 2024
本文研究了扰动扩散概率模型在语义分割任务中的应用,特别是在标注数据有限的情况下。通过探究预训练扩散模型的中间层,我们发现它们可以有效地捕捉输入图像的语义信息,并成为像素级别的分割表示。基于这些观察,我们提出了一种简单的分割方法,能在仅有少量训练图像的情况下显著提高性能。
Dec, 2021
本综述为关于应用于计算机视觉的去噪扩散模型文章提供了全面的回顾,包括在领域中的理论和实际贡献,提供了三种通用扩散建模框架,并介绍了扩散模型与其他深度生成模型之间的关系,并引入了在计算机视觉中应用扩散模型的多个视角分类,最后,我们说明了离散模型的当前限制并预见了未来研究的一些有趣方向。
Sep, 2022
通过在图像神经场上训练扩散模型,我们可以学习连续图像的分布,并显示其在分辨率上的优势。我们提出了一种简单而有效的方法,可以将现有的潜在扩散自动编码器转换为图像神经场自动编码器。通过使用混合分辨率图像数据集对其进行训练,我们证明了图像神经场扩散模型优于固定分辨率扩散模型后跟超分辨率模型,并能高效地解决应用于不同尺度的逆问题。
Jun, 2024
这篇综述论文全面地评估了扩散模型技术,并探讨了它们与其他深度生成模型的相关性,建立了理论基础。同时,该论文还总结了扩散模型在医学、遥感和视频等领域应用的情况,提供了常用基准和评估指标的概述,以及针对三个主要任务的扩散模型技术的全面评估。最后,作者指出当前扩散模型的局限性,并提出了未来研究的七个有趣方向。这篇综述论文旨在加深人们对于在低层次视觉任务中的去噪扩散模型领域的全面理解。
Jun, 2024
本文提出一种使用掩码自编码器作为扩散模型的条件,进而重复生成预训练视觉表示的方法,具备强大的下游识别任务的初始化能力,高质量图像修复和无需额外努力即可应用于视频分类等许多优点。同时,本文还对设计选择的利弊进行了全面的研究并建立了扩散模型和掩码自编码器之间的联系。
Apr, 2023
本文提出了 DiffusionSeg 框架,利用预训练和扩散模型实现无监督物体发现,并采用合成 - 利用两阶段策略来缓解数据不足和结构差异问题,采用反演技术将图像映射回扩散特征,通过大量实验验证了该方法的优越性。
Mar, 2023