Diff-VPS：通过多任务扩散网络进行视频息肉分割与对抗时间推理

Sep, 2024

Diff-VPS：通过多任务扩散网络进行视频息肉分割与对抗时间推理

Diff-VPS: Video Polyp Segmentation via a Multi-task Diffusion Network with Adversarial Temporal Reasoning

Yingling Lu, Yijun Yang, Zhaohu Xing, Qiong Wang, Lei Zhu

TL;DR本研究针对视频息肉分割领域中的多任务和时间依赖问题，提出了一种新颖的基于扩散模型的网络Diff-VPS。研究显示，通过引入多任务监督和时间推理模块，该方法显著提高了分割精度，实现了当前的最先进性能。

Abstract

Diffusion Probabilistic Models have recently attracted significant attention in the community of computer vision due to their outstanding performance. However, while a substantial amount of diffusion-based research has focused on generative tasks, no work introduces Diffusion Models to

发现论文，激发创造

无监督视频对象分割的锚点扩散

本文研究了一种基于像素嵌入和密集对应的方法，有效地利用时间段内的远距离依赖性和无在线监督，用于快速和准确地进行视频物体分割，并与竞争状态下的在线半监督方法具有很高的可比性。

Oct, 2019

视频息肉分割的逐渐归一化自注意力网络

本文提出了一种名为PNS-Net的新型进展性规范化自注意力网络，其中采用归一化的自注意力块，结合卷积神经网络和重复网络，能够在单个RTX 2080 GPU上实现真实时间速度（约为140fps），且无需后处理。实验表明PNS-Net在挑战性的视频息肉分割数据集上表现出了最先进的性能，具有不同设置下工作效果很好的潜力，成为处理视频息肉分割任务的有前途的解决方案。

May, 2021

基于扩散模型的标签效率语义分割

本文研究了扰动扩散概率模型在语义分割任务中的应用，特别是在标注数据有限的情况下。通过探究预训练扩散模型的中间层，我们发现它们可以有效地捕捉输入图像的语义信息，并成为像素级别的分割表示。基于这些观察，我们提出了一种简单的分割方法，能在仅有少量训练图像的情况下显著提高性能。

Dec, 2021

具有掩模先验建模的降噪扩散语义分割

本文中，我们提出了使用最近发展的去噪扩散生成模型建模的掩模先验来提高现有判别方法的语义分割质量。我们发现简单的集成扩散模型到语义分割中是不够的，并且一次差的扩散过程设计可能导致分割性能下降。我们通过多个实验表明，我们的方法在ADE20K和Cityscapes数据集上达到了较高的定量和定性性能。

Jun, 2023

DifFSS: 少样本语义分割扩散模型

DifFSS is a novel few-shot semantic segmentation paradigm which leverages the powerful generation ability of diffusion models to generate diverse auxiliary support images for FSS models by using semantic masks, scribbles or soft HED boundaries without modifying their network structure, leading to a consistent improvement in segmentation performance.

Jul, 2023

扩散模型是一个无需训练的开放词汇语义切分工具

最近的研究探讨了利用预训练的文本-图像判别模型（如CLIP）来解决与开放词汇语义分割相关的挑战。然而，值得注意的是，这些模型基于对比学习的对齐过程可能无意中导致重要的定位信息和物体完整性的丢失，这对于实现准确的语义分割至关重要。最近，人们越来越有兴趣将扩散模型应用于文本到图像生成任务以外的领域，特别是在语义分割领域。这些方法利用扩散模型生成注释数据或提取特征以促进语义分割。为此，我们揭示了生成式文本到图像条件扩散模型作为高效的开放词汇语义分割器的潜力，并引入了一种名为DiffSegmenter的无需训练的新方法。具体而言，通过将输入图像和候选类别输入到现成的预训练条件潜在扩散模型，由去噪U-Net产生的交叉注意力图直接用作分割分数，然后由后续的自注意力图进一步细化和完成分割。此外，我们精心设计了有效的文本提示和类别过滤机制以进一步增强分割结果。在三个基准数据集上的广泛实验证明，所提出的DiffSegmenter在开放词汇语义分割方面取得了令人印象深刻的结果。

Sep, 2023

通过潜在扩散模型探索上下文分割

通过使用代表性的生成模型——潜在扩散模型（LDM），我们从新的角度探索了上下文分割问题，提出了两种元架构和相应的输出对齐和优化策略。我们通过全面的消融研究发现，分割质量取决于输出对齐和上下文指令。实验证明，我们的方法在挑战性的上下文分割任务中取得了与专业模型或视觉基础模型相当甚至更强的结果，证明了潜在扩散模型也可以达到足够好的效果。

Mar, 2024

探索预训练的文本到视频传播模型用于视频对象分割

探索了基于预训练的文本到视频(T2V)扩散模型产生的视觉表示，在视频理解任务中的应用，通过验证经典的参考视频对象分割(R-VOS)任务的假设，介绍了一个名为“VD-IT”的新框架，结合了预训练的T2V模型，利用文本信息作为条件输入，确保时间上的语义一致性，进一步加入图像标记作为补充文本输入，丰富特征集合以生成详细和细腻的掩码，并且通过大量实验证明，与常用的基于图像/视频预训练任务的视频骨干网络（例如Video Swin Transformer）相比，固定的生成T2V扩散模型在保持语义对齐和时间一致性方面具有更好的潜力，在现有的标准基准上，VD-IT取得了非常有竞争力的结果。

Mar, 2024

基于预训练扩散模型的零样本视频语义分割

我们引入了第一个基于预训练扩散模型的零样本视频语义分割方法，该方法在各种视频语义分割基准测试中明显优于现有的零样本图像语义分割方法，并且在VSPW数据集上与有监督的视频语义分割方法不相上下，尽管它没有经过显式的VSS训练。

May, 2024

通过扩散特征弥合语义分割的领域差距

利用预训练扩散模型的内在知识，通过采样和融合技术，提出了一种新的扩散特征融合方法（DIFF）来提取和集成有效的语义表示，该方法在领域泛化语义分割和合成到真实情景中均优于先前的方法达到了最优性能。

Jun, 2024