扩散,关注与分割:利用稳定扩散进行无监督零样本分割
使用预训练的冻结稳定扩散的 MaskDiffusion 方法实现了开放词汇的语义分割,在没有额外训练或注释的情况下取得了较其他可比的无监督分割方法显著的定性和定量改善。
Mar, 2024
本文提出了一种基于大规模文本到图像扩散模型的零样本开放词库分割方法,通过考虑采样的图像的背景来更好地定位对象并直接分割背景,并证明该方法可以在多个基准测试中表现出色,在 Pascal VOC 基准测试上领先了超过 10%。
Jun, 2023
本文提出了 DiffusionSeg 框架,利用预训练和扩散模型实现无监督物体发现,并采用合成 - 利用两阶段策略来缓解数据不足和结构差异问题,采用反演技术将图像映射回扩散特征,通过大量实验验证了该方法的优越性。
Mar, 2023
本文研究探索在 off-the-shelf 扩散模型的基础上,如何在无需 re-training 的情况下进行语义定位。我们提出了 Peekaboo 方法,使用无监督学习技术在 Pascal VOC 数据集和 RefCOCO 数据集上进行了验证。该方法是第一个能够在开放词汇的情况下实现零检测,并结合了生成模型和语言模型。
Nov, 2022
该论文研究了基于开源预训练模型的零样本、无需训练的图像分割方法,通过结合不同的小型基础模型,利用扩散模型生成的特征,以及基于 CLIP 模型进行开放性词汇处理,实现了在 Pascal VOC 和 COCO 数据集上超越许多基于训练的方法并与最近的弱监督分割方法相媲美的结果。
Mar, 2024
我们引入了第一个基于预训练扩散模型的零样本视频语义分割方法,该方法在各种视频语义分割基准测试中明显优于现有的零样本图像语义分割方法,并且在 VSPW 数据集上与有监督的视频语义分割方法不相上下,尽管它没有经过显式的 VSS 训练。
May, 2024
本研究提出了一种用于零样本参照图像分割的新型方法 Ref-Diff,它利用生成模型中的细粒度多模态信息,证明仅凭生成模型的性能可以与现有的 SOTA 弱监督模型相媲美,并且当将生成模型与判别模型结合时,我们的 Ref-Diff 显著优于其他方法,证明生成模型对于该任务也是有益的,可为更好的参照分割提供补充。
Aug, 2023
本文介绍了基于文本和图像结合模型的生成分类方法,利用如 Stable Diffusion 的扩展图像扩散模型提供的在不需要额外训练的条件概率密度估计,实现了零样本分类,并证明其能够在多种基准测试上获得强大的结果及优于竞争方法的效果,同时还发现与对比差异对比性方法相比,扩散方法在多模式关系推理方面具有更强的能力,并且即使在弱增强和没有正则化的情况下,基于图像的扩散模型也能取得与训练于同一数据集的 SOTA 判别分类器相近的性能。
Mar, 2023
最近的研究探讨了利用预训练的文本 - 图像判别模型(如 CLIP)来解决与开放词汇语义分割相关的挑战。然而,值得注意的是,这些模型基于对比学习的对齐过程可能无意中导致重要的定位信息和物体完整性的丢失,这对于实现准确的语义分割至关重要。最近,人们越来越有兴趣将扩散模型应用于文本到图像生成任务以外的领域,特别是在语义分割领域。这些方法利用扩散模型生成注释数据或提取特征以促进语义分割。为此,我们揭示了生成式文本到图像条件扩散模型作为高效的开放词汇语义分割器的潜力,并引入了一种名为 DiffSegmenter 的无需训练的新方法。具体而言,通过将输入图像和候选类别输入到现成的预训练条件潜在扩散模型,由去噪 U-Net 产生的交叉注意力图直接用作分割分数,然后由后续的自注意力图进一步细化和完成分割。此外,我们精心设计了有效的文本提示和类别过滤机制以进一步增强分割结果。在三个基准数据集上的广泛实验证明,所提出的 DiffSegmenter 在开放词汇语义分割方面取得了令人印象深刻的结果。
Sep, 2023