EmerDiff:扩散模型中的新兴像素级语义知识
本文研究了扰动扩散概率模型在语义分割任务中的应用,特别是在标注数据有限的情况下。通过探究预训练扩散模型的中间层,我们发现它们可以有效地捕捉输入图像的语义信息,并成为像素级别的分割表示。基于这些观察,我们提出了一种简单的分割方法,能在仅有少量训练图像的情况下显著提高性能。
Dec, 2021
使用预训练的冻结稳定扩散的 MaskDiffusion 方法实现了开放词汇的语义分割,在没有额外训练或注释的情况下取得了较其他可比的无监督分割方法显著的定性和定量改善。
Mar, 2024
通过利用文本到图像生成模型 Stable Diffusion (SD) 的文本提示、交叉注意力和自我注意力,我们引入了三种新技术:类别提示附加,类别提示交叉注意力和自我注意力指数化,从而生成与合成图像相对应的分割地图,这些地图可以作为训练语义分割器的伪标签,消除了对像素级注释的繁重需求,我们还在 PASCAL VOC 和 MSCOCO 两个数据集上进行了评估,我们的方法明显优于同行的工作。
Sep, 2023
利用预训练扩散模型的内在知识,通过采样和融合技术,提出了一种新的扩散特征融合方法(DIFF)来提取和集成有效的语义表示,该方法在领域泛化语义分割和合成到真实情景中均优于先前的方法达到了最优性能。
Jun, 2024
最近的研究探讨了利用预训练的文本 - 图像判别模型(如 CLIP)来解决与开放词汇语义分割相关的挑战。然而,值得注意的是,这些模型基于对比学习的对齐过程可能无意中导致重要的定位信息和物体完整性的丢失,这对于实现准确的语义分割至关重要。最近,人们越来越有兴趣将扩散模型应用于文本到图像生成任务以外的领域,特别是在语义分割领域。这些方法利用扩散模型生成注释数据或提取特征以促进语义分割。为此,我们揭示了生成式文本到图像条件扩散模型作为高效的开放词汇语义分割器的潜力,并引入了一种名为 DiffSegmenter 的无需训练的新方法。具体而言,通过将输入图像和候选类别输入到现成的预训练条件潜在扩散模型,由去噪 U-Net 产生的交叉注意力图直接用作分割分数,然后由后续的自注意力图进一步细化和完成分割。此外,我们精心设计了有效的文本提示和类别过滤机制以进一步增强分割结果。在三个基准数据集上的广泛实验证明,所提出的 DiffSegmenter 在开放词汇语义分割方面取得了令人印象深刻的结果。
Sep, 2023
本研究提出了一种新方法,利用扩展后的扩散概率方法,通过端到端学习和使用编码器 - 解码器网络,对图像进行分割。该方法可以迭代地细化分割图,获得最终的分割结果,在多个基准数据集上获得了最先进的结果。
Dec, 2021
构建高清地图是实现自动驾驶的关键需求之一。本研究提出了 DiffMap,一种利用潜在扩散模型对地图分割掩码的结构先验进行建模的新方法,可以提高语义分割方法的性能并有效修正分割输出中的结构错误,进而改进生成地图的质量。通过广泛的可视化分析,我们的模型在生成更准确反映真实世界地图布局的结果方面表现出优越的能力,从而进一步验证了其有效性。
May, 2024
本文提出了 DiffusionSeg 框架,利用预训练和扩散模型实现无监督物体发现,并采用合成 - 利用两阶段策略来缓解数据不足和结构差异问题,采用反演技术将图像映射回扩散特征,通过大量实验验证了该方法的优越性。
Mar, 2023
本论文提出了一种新的利用语义知识的图像生成方法,通过优化模型中的提示值,可以实现在多张图片中寻找相同语义意义的位置,可以在多个数据集上达到最先进的性能。
May, 2023
本篇论文提出了一种基于 DDPM 的新型框架,用于语义图像合成,通过条件扩散模型来处理语义布局与噪声图像,而引入分类器自由的引导采样策略来进一步提高了生成质量和语义可解释性。
Jun, 2022