扩散模型是一个无需训练的开放词汇语义切分工具

Sep, 2023

扩散模型是一个无需训练的开放词汇语义切分工具

Diffusion Model is Secretly a Training-free Open Vocabulary Semantic Segmenter

Jinglong Wang, Xiawei Li, Jing Zhang, Qingyuan Xu, Qin Zhou...

TL;DR最近的研究探讨了利用预训练的文本 - 图像判别模型（如 CLIP）来解决与开放词汇语义分割相关的挑战。然而，值得注意的是，这些模型基于对比学习的对齐过程可能无意中导致重要的定位信息和物体完整性的丢失，这对于实现准确的语义分割至关重要。最近，人们越来越有兴趣将扩散模型应用于文本到图像生成任务以外的领域，特别是在语义分割领域。这些方法利用扩散模型生成注释数据或提取特征以促进语义分割。为此，我们揭示了生成式文本到图像条件扩散模型作为高效的开放词汇语义分割器的潜力，并引入了一种名为 DiffSegmenter 的无需训练的新方法。具体而言，通过将输入图像和候选类别输入到现成的预训练条件潜在扩散模型，由去噪 U-Net 产生的交叉注意力图直接用作分割分数，然后由后续的自注意力图进一步细化和完成分割。此外，我们精心设计了有效的文本提示和类别过滤机制以进一步增强分割结果。在三个基准数据集上的广泛实验证明，所提出的 DiffSegmenter 在开放词汇语义分割方面取得了令人印象深刻的结果。

Abstract

Recent research has explored the utilization of pre-trained text-image discriminative models, such as CLIP, to tackle the challenges associated with open-vocabulary semantic segmentation. However, it is worth noting that the alignment process based on contrastive learning employed by t

pre-trained text-image discriminative models open-vocabulary semantic segmentation diffusion models generative text-to-image conditional diffusion models diffsegmenter

发现论文，激发创造

FreeSeg-Diff：基于扩散模型的无需训练的开放词汇分割

该论文研究了基于开源预训练模型的零样本、无需训练的图像分割方法，通过结合不同的小型基础模型，利用扩散模型生成的特征，以及基于 CLIP 模型进行开放性词汇处理，实现了在 Pascal VOC 和 COCO 数据集上超越许多基于训练的方法并与最近的弱监督分割方法相媲美的结果。

Mar, 2024

零样本开放词汇分割的扩散模型

本文提出了一种基于大规模文本到图像扩散模型的零样本开放词库分割方法，通过考虑采样的图像的背景来更好地定位对象并直接分割背景，并证明该方法可以在多个基准测试中表现出色，在 Pascal VOC 基准测试上领先了超过 10%。

Jun, 2023

MaskDiffusion: 利用预训练扩散模型进行语义分割

使用预训练的冻结稳定扩散的 MaskDiffusion 方法实现了开放词汇的语义分割，在没有额外训练或注释的情况下取得了较其他可比的无监督分割方法显著的定性和定量改善。

Mar, 2024

Peekaboo: 文本到图像扩散模型是零样本分割器

本文研究探索在 off-the-shelf 扩散模型的基础上，如何在无需 re-training 的情况下进行语义定位。我们提出了 Peekaboo 方法，使用无监督学习技术在 Pascal VOC 数据集和 RefCOCO 数据集上进行了验证。该方法是第一个能够在开放词汇的情况下实现零检测，并结合了生成模型和语言模型。

Nov, 2022

从文本到掩码：使用文本 - 图像扩散模型的注意力定位实体

本研究揭示了扩散模型中隐藏的丰富多模态知识的一种新方法，用于分割任务。

Sep, 2023

DiffusionSeg: 适应扩散的非监督物体发现

本文提出了 DiffusionSeg 框架，利用预训练和扩散模型实现无监督物体发现，并采用合成 - 利用两阶段策略来缓解数据不足和结构差异问题，采用反演技术将图像映射回扩散特征，通过大量实验验证了该方法的优越性。

Mar, 2023

通过扩散特征弥合语义分割的领域差距

利用预训练扩散模型的内在知识，通过采样和融合技术，提出了一种新的扩散特征融合方法（DIFF）来提取和集成有效的语义表示，该方法在领域泛化语义分割和合成到真实情景中均优于先前的方法达到了最优性能。

Jun, 2024

基于扩散模型的标签效率语义分割

本文研究了扰动扩散概率模型在语义分割任务中的应用，特别是在标注数据有限的情况下。通过探究预训练扩散模型的中间层，我们发现它们可以有效地捕捉输入图像的语义信息，并成为像素级别的分割表示。基于这些观察，我们提出了一种简单的分割方法，能在仅有少量训练图像的情况下显著提高性能。

Dec, 2021

EmerDiff：扩散模型中的新兴像素级语义知识

使用稳定扩散模型从特征图中提取语义信息，构建高分辨率细分割地图，以展示像素级语义知识的存在。

Jan, 2024

采用文本到图像扩散模型的开放词汇全景分割

ODISE 通过联合预训练的文本 - 图像推理和判别式模型实现开放式语料库全景分割，其能力高于现有技术水平，并能在 AED20K 数据集上达到 30.0 mIoU 和 23.4 PQ 的表现。

Mar, 2023