无文本扩散模型是否学习到有辨别力的视觉表征
本文探讨了使用一种单一的预训练阶段进行生成性和判别性任务的统一表征学习器 —— 扩散模型,并发现这种模型在图像分类任务中具有优异的性能,特别是在经过精心特征选择和池化的情况下,扩散模型明显优于 BigBiGAN 等其他可比较的生成 - 判别方法
Jul, 2023
通过使用预训练的 UNet(或 transformer)扩散模型仅需适量的目标数据(甚至只有合成数据),在基础视觉感知任务中能够实现出色的可传递性表现,包括单眼深度、表面法线、图像分割、抠图、人体姿势估计等。
Mar, 2024
扩散模型和表示学习之间的相互作用进行了综述,包括数学基础、去噪网络架构和引导方法等方面,阐述了与扩散模型和表示学习相关的各种方法,并提出了对扩散模型和表示学习分类的综合概述以及现有关注点和潜在研究领域。
Jun, 2024
本文提出了 DiffusionSeg 框架,利用预训练和扩散模型实现无监督物体发现,并采用合成 - 利用两阶段策略来缓解数据不足和结构差异问题,采用反演技术将图像映射回扩散特征,通过大量实验验证了该方法的优越性。
Mar, 2023
利用预训练扩散模型的内在知识,通过采样和融合技术,提出了一种新的扩散特征融合方法(DIFF)来提取和集成有效的语义表示,该方法在领域泛化语义分割和合成到真实情景中均优于先前的方法达到了最优性能。
Jun, 2024
本文研究了视觉 transformer 在基于扩散的生成学习中的有效性,并提出了一种新的模型 Diffusion Vision Transformers(DiffiT),该模型在多个条件和无条件综合任务中取得了最新的基准成绩,生成了高保真度图片。
Dec, 2023
Vermouth 是一个简单而有效的框架,由预训练的稳定扩散(SD)模型、能够集成分层表示的统一头部(U-head)和提供鉴别先验的调整专家构成,通过广泛的比较评估,在零样本基于草图的图像检索(ZS-SBIR)、少样本分类和开放词汇语义分割任务上展示了我们方法的效果,展示了扩散模型作为强大学习器的潜力,证明了它们在提供信息丰富和鲁棒的视觉表示方面的重要性。
Jan, 2024
最近的研究探讨了利用预训练的文本 - 图像判别模型(如 CLIP)来解决与开放词汇语义分割相关的挑战。然而,值得注意的是,这些模型基于对比学习的对齐过程可能无意中导致重要的定位信息和物体完整性的丢失,这对于实现准确的语义分割至关重要。最近,人们越来越有兴趣将扩散模型应用于文本到图像生成任务以外的领域,特别是在语义分割领域。这些方法利用扩散模型生成注释数据或提取特征以促进语义分割。为此,我们揭示了生成式文本到图像条件扩散模型作为高效的开放词汇语义分割器的潜力,并引入了一种名为 DiffSegmenter 的无需训练的新方法。具体而言,通过将输入图像和候选类别输入到现成的预训练条件潜在扩散模型,由去噪 U-Net 产生的交叉注意力图直接用作分割分数,然后由后续的自注意力图进一步细化和完成分割。此外,我们精心设计了有效的文本提示和类别过滤机制以进一步增强分割结果。在三个基准数据集上的广泛实验证明,所提出的 DiffSegmenter 在开放词汇语义分割方面取得了令人印象深刻的结果。
Sep, 2023
通过利用扩散模型生成的人工图像中的自由注意力掩膜进行无监督学习,可以在图像分类、检测、分割和图像 - 文本检索等多个下游任务中实现基线模型的一致性改进,从而缩小无监督预训练在合成数据和现实场景之间的性能差距。
Aug, 2023
该论文提出了一种名为 DSD 的创新方法,它利用预训练的 text-to-image 扩散模型进行少样本判别性学习,并使用交叉注意力分数捕捉视觉和文本信息之间的相互影响,并通过基于注意力的提示学习对模型进行微调,实现图文匹配,并在几个基准数据集上展示利用预训练扩散模型在少样本图文匹配上具有非凡的结果。
May, 2023