Ref-Diff: 通过生成模型实现的零样本参考图像分割
该论文研究了基于开源预训练模型的零样本、无需训练的图像分割方法,通过结合不同的小型基础模型,利用扩散模型生成的特征,以及基于 CLIP 模型进行开放性词汇处理,实现了在 Pascal VOC 和 COCO 数据集上超越许多基于训练的方法并与最近的弱监督分割方法相媲美的结果。
Mar, 2024
本文研究探索在 off-the-shelf 扩散模型的基础上,如何在无需 re-training 的情况下进行语义定位。我们提出了 Peekaboo 方法,使用无监督学习技术在 Pascal VOC 数据集和 RefCOCO 数据集上进行了验证。该方法是第一个能够在开放词汇的情况下实现零检测,并结合了生成模型和语言模型。
Nov, 2022
本文提出了一种双重多模态交互网络 (DMMI),用于解决自然语言表达中引用图像分割的问题,并设计了一个新的挑战性但真实的数据集 Ref-ZOM,通过大量实验证明该方法在不同数据集上取得了最先进的性能,并且 Ref-ZOM 训练的模型能够良好地处理各种类型的文本输入。
Aug, 2023
利用预训练的生成扩散模型直接应用于视觉定位的零阶视觉定位任务,以图文扩散模型为基础设计了一个全面的区域评分方法,证明了其在零阶视觉定位上的强大性能。
Sep, 2023
利用稳定扩散模型中的自注意力层以及基于测量注意力图之间的 KL 散度的简单而有效的迭代合并过程,我们提出了一种无需训练或语言依赖性,能够从任何图像中提取质量分割的方法。在 COCO-Stuff-27 上,我们的方法在像素准确率和平均 IoU 上都比之前最先进的无监督零样本方法提高了 26% 和 17%。
Aug, 2023
最近的研究探讨了利用预训练的文本 - 图像判别模型(如 CLIP)来解决与开放词汇语义分割相关的挑战。然而,值得注意的是,这些模型基于对比学习的对齐过程可能无意中导致重要的定位信息和物体完整性的丢失,这对于实现准确的语义分割至关重要。最近,人们越来越有兴趣将扩散模型应用于文本到图像生成任务以外的领域,特别是在语义分割领域。这些方法利用扩散模型生成注释数据或提取特征以促进语义分割。为此,我们揭示了生成式文本到图像条件扩散模型作为高效的开放词汇语义分割器的潜力,并引入了一种名为 DiffSegmenter 的无需训练的新方法。具体而言,通过将输入图像和候选类别输入到现成的预训练条件潜在扩散模型,由去噪 U-Net 产生的交叉注意力图直接用作分割分数,然后由后续的自注意力图进一步细化和完成分割。此外,我们精心设计了有效的文本提示和类别过滤机制以进一步增强分割结果。在三个基准数据集上的广泛实验证明,所提出的 DiffSegmenter 在开放词汇语义分割方面取得了令人印象深刻的结果。
Sep, 2023
本文提出了一种基于大规模文本到图像扩散模型的零样本开放词库分割方法,通过考虑采样的图像的背景来更好地定位对象并直接分割背景,并证明该方法可以在多个基准测试中表现出色,在 Pascal VOC 基准测试上领先了超过 10%。
Jun, 2023
本文介绍了基于文本和图像结合模型的生成分类方法,利用如 Stable Diffusion 的扩展图像扩散模型提供的在不需要额外训练的条件概率密度估计,实现了零样本分类,并证明其能够在多种基准测试上获得强大的结果及优于竞争方法的效果,同时还发现与对比差异对比性方法相比,扩散方法在多模式关系推理方面具有更强的能力,并且即使在弱增强和没有正则化的情况下,基于图像的扩散模型也能取得与训练于同一数据集的 SOTA 判别分类器相近的性能。
Mar, 2023
通过使用扩散模型的去噪能力作为代理,将零样本分类器应用于 Imagen,探究其知识方面并与 CLIP 进行比较,结果显示 Imagen 与 CLIP 在零样本图像分类方面表现相当,同时在形状 / 纹理偏差测试方面取得了最先进的结果,能够成功地执行属性绑定,而 CLIP 则不能。因此,我们认为应该探索将生成预训练作为一种有吸引力的视觉和视觉语言问题的替代方法。
Mar, 2023
提出了 SegRefiner 方法,通过将细分改进视为数据生成过程,通过一系列去噪扩散步骤实现。经过全面实验验证,SegRefiner 在各种细分任务中表现出优越性能,包括语义分割、实例分割和二分图像分割。
Dec, 2023