采用文本到图像扩散模型的开放词汇全景分割

CVPRMar, 2023

采用文本到图像扩散模型的开放词汇全景分割

Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion Models

Jiarui Xu, Sifei Liu, Arash Vahdat, Wonmin Byeon, Xiaolong Wang...

TL;DRODISE 通过联合预训练的文本 - 图像推理和判别式模型实现开放式语料库全景分割，其能力高于现有技术水平，并能在 AED20K 数据集上达到 30.0 mIoU 和 23.4 PQ 的表现。

Abstract

We present odise: Open-vocabulary DIffusion-based panoptic segmentation, which unifies pre-trained text-image diffusion and discriminative

odise panoptic segmentation text-image diffusion clip semantic segmentation

发现论文，激发创造

FreeSeg-Diff：基于扩散模型的无需训练的开放词汇分割

该论文研究了基于开源预训练模型的零样本、无需训练的图像分割方法，通过结合不同的小型基础模型，利用扩散模型生成的特征，以及基于 CLIP 模型进行开放性词汇处理，实现了在 Pascal VOC 和 COCO 数据集上超越许多基于训练的方法并与最近的弱监督分割方法相媲美的结果。

Mar, 2024

利用开放词汇扩散进行伪装实例分割

通过结合文本到图像扩散技术和开放词汇，我们提出了一种解决计算机视觉中伪装实例分割问题的方法，该方法利用跨领域的文本 - 视觉特征学习来区分复杂背景中伪装对象，实验证明了该方法相较于现有方法的优势。

Dec, 2023

扩散模型是一个无需训练的开放词汇语义切分工具

最近的研究探讨了利用预训练的文本 - 图像判别模型（如 CLIP）来解决与开放词汇语义分割相关的挑战。然而，值得注意的是，这些模型基于对比学习的对齐过程可能无意中导致重要的定位信息和物体完整性的丢失，这对于实现准确的语义分割至关重要。最近，人们越来越有兴趣将扩散模型应用于文本到图像生成任务以外的领域，特别是在语义分割领域。这些方法利用扩散模型生成注释数据或提取特征以促进语义分割。为此，我们揭示了生成式文本到图像条件扩散模型作为高效的开放词汇语义分割器的潜力，并引入了一种名为 DiffSegmenter 的无需训练的新方法。具体而言，通过将输入图像和候选类别输入到现成的预训练条件潜在扩散模型，由去噪 U-Net 产生的交叉注意力图直接用作分割分数，然后由后续的自注意力图进一步细化和完成分割。此外，我们精心设计了有效的文本提示和类别过滤机制以进一步增强分割结果。在三个基准数据集上的广泛实验证明，所提出的 DiffSegmenter 在开放词汇语义分割方面取得了令人印象深刻的结果。

Sep, 2023

零样本开放词汇分割的扩散模型

本文提出了一种基于大规模文本到图像扩散模型的零样本开放词库分割方法，通过考虑采样的图像的背景来更好地定位对象并直接分割背景，并证明该方法可以在多个基准测试中表现出色，在 Pascal VOC 基准测试上领先了超过 10%。

Jun, 2023

MaskDiffusion: 利用预训练扩散模型进行语义分割

使用预训练的冻结稳定扩散的 MaskDiffusion 方法实现了开放词汇的语义分割，在没有额外训练或注释的情况下取得了较其他可比的无监督分割方法显著的定性和定量改善。

Mar, 2024

扩张模型中的语义分割的词汇开放式注意力图与令牌优化

通过 Open-Vocabulary Attention Maps (OVAM) 方法，我们提出了一种基于迁移学习的模块 (Nucleus) 来训练大规模的中文文本生成系统 TextGPT，该模型利用 Transformer 将初始输入句子转换成生成句子所需的上下文嵌入向量，然后基于这些上下文嵌入生成生成句子。

Mar, 2024

Open-Vocabulary Panoptic Segmentation with MaskCLIP

本文提出了用于任意描述的显式开放分类的 Panoptic 分割，建立了一个没有调优或蒸馏的基线方法，然后开发了一个新的基于 Transformer 的方法 MaskCLIP，使用 ViT-CLIP 骨架和掩模查询来执行语义和物体实例分割。最后，在 ADE20K 和 PASCAL 数据集上获得了令人鼓舞的结果，并展示了 MaskCLIP 的定制类别的定性说明。

Aug, 2022

从文本到掩码：使用文本 - 图像扩散模型的注意力定位实体

本研究揭示了扩散模型中隐藏的丰富多模态知识的一种新方法，用于分割任务。

Sep, 2023

Peekaboo: 文本到图像扩散模型是零样本分割器

本文研究探索在 off-the-shelf 扩散模型的基础上，如何在无需 re-training 的情况下进行语义定位。我们提出了 Peekaboo 方法，使用无监督学习技术在 Pascal VOC 数据集和 RefCOCO 数据集上进行了验证。该方法是第一个能够在开放词汇的情况下实现零检测，并结合了生成模型和语言模型。

Nov, 2022

使用适应掩码的 CLIP 进行开放词汇语义分割

该论文提出了一种针对开放词汇的语义分割方法，即通过预训练模型再特定训练样本上的微调和修正，来解决预训练模型在遮蔽图像上的效果问题，从而提高模型的泛化能力，并通过遮蔽抽取方法有效地提高了语义分割的效果。

Oct, 2022