Sep, 2023

扩散模型是一个无需训练的开放词汇语义切分工具

TL;DR最近的研究探讨了利用预训练的文本 - 图像判别模型(如 CLIP)来解决与开放词汇语义分割相关的挑战。然而,值得注意的是,这些模型基于对比学习的对齐过程可能无意中导致重要的定位信息和物体完整性的丢失,这对于实现准确的语义分割至关重要。最近,人们越来越有兴趣将扩散模型应用于文本到图像生成任务以外的领域,特别是在语义分割领域。这些方法利用扩散模型生成注释数据或提取特征以促进语义分割。为此,我们揭示了生成式文本到图像条件扩散模型作为高效的开放词汇语义分割器的潜力,并引入了一种名为 DiffSegmenter 的无需训练的新方法。具体而言,通过将输入图像和候选类别输入到现成的预训练条件潜在扩散模型,由去噪 U-Net 产生的交叉注意力图直接用作分割分数,然后由后续的自注意力图进一步细化和完成分割。此外,我们精心设计了有效的文本提示和类别过滤机制以进一步增强分割结果。在三个基准数据集上的广泛实验证明,所提出的 DiffSegmenter 在开放词汇语义分割方面取得了令人印象深刻的结果。