- 2024 年野外像素级视频理解竞赛(CVPR'24 PVUW)中视频全景分割优胜者,以及视频语义分割最佳长视频一致性
该研究论文详细介绍了我们在 PVUW'24 VPS 挑战中获得第一名的研究工作,以及在 PVUW'24 VSS 挑战中获得第三名的研究工作,该方案基于 DINOv2 ViT-g 视觉转换模型和多阶段分离的视频实例分割 (DVIS) 框架。
- 基于预训练扩散模型的零样本视频语义分割
我们引入了第一个基于预训练扩散模型的零样本视频语义分割方法,该方法在各种视频语义分割基准测试中明显优于现有的零样本图像语义分割方法,并且在 VSPW 数据集上与有监督的视频语义分割方法不相上下,尽管它没有经过显式的 VSS 训练。
- 深度共享特征挖掘视频语义分割的高效性
通过共享特征、对稀疏标注数据进行对称训练并增强时间一致性,该论文提出的深度公共特征挖掘方法在视频语义分割方面取得了良好的平衡性能。
- 基于消失点引导的驾驶场景视频语义分割
利用消失点先验知识的 VPSeg 模型在驾驶场景下进行视频语义分割,通过两个模块(DenseVP 和 MotionVP)利用静态和动态消失点先验知识,实现了更加有效的分割结果。这种模型在两个流行的驾驶分割基准数据集 Cityscapes 和 - DVIS++: 通用视频分割的改进解耦框架
我们提出了一种新颖的 Decoupled VIdeo Segmentation (DVIS) 框架,用于解决通用视频分割的难题,包括视频实例分割 (VIS),视频语义分割 (VSS) 和视频全景分割 (VPS)。通过将视频分割解耦成三个级联 - DA-STC: 基于时空一致性的领域自适应视频语义分割
通过引入双向多级时空融合模块和类别感知的时空特征对齐模块,提出了一种新颖的 DA-STC 方法来解决视频语义分割任务中的领域自适应问题,并在多个具有挑战性的基准测试上取得了最先进的 mIOUs。
- 用于高效视频语义分割的蒙版传播
视频语义分割(VSS)通过为视频序列中的每个像素分配语义标签来完成。本文提出了一种名为 MPVSS 的高效掩码传播框架,通过利用学习到的查询生成一组与关键帧的掩码预测相关的面向片段的流图,并将这些掩码 - 流对变换为非关键帧的掩码预测,从而 - 视频语义分割的时序感知分层掩码分类
我们提出了一个用于视频语义分割(VSS)的新解决方案 THE-Mask,首次引入了时态感知的分层物体查询,并利用简单的两轮匹配机制,在训练过程中以最小代价匹配更多的查询对象,同时在推理过程中无需任何额外代价。为了支持多对一的分配,我们设计了 - PVUW Challenge 2023 比赛中的第三名解决方案:视频全景分割
为应对在野外进行视频全景分割任务,我们提出了一种强大的综合视频全景分割解决方案,通过将视频全景分割任务视为分割目标查询任务,利用神经网络提取的视频特征来预测分割掩码,同时添加了视频语义分割和视频实例分割等额外任务进行联合训练,提高了解决方案 - CVPR视频语义分割的运动状态对齐
本研究提出了一种基于运动状态对齐的视频语义分割方法,该方法解决了信息不一致性和计算成本等难点,实现了像素级状态一致性和区域级时间一致性,能够以低计算成本高精度地分割出视频语义区域,并在 Cityscapes 和 CamVid 数据集上验证了 - CVPR基于时空像素级对比学习的无源域自适应视频语义分割
本文研究了视频语义分割的源无域自适应(SFDA),提出了一种新的叫做 Spatio-Temporal Pixel-Level contrastive learning 的方法,该方法通过利用时空信息来解决源数据缺失的问题,并在视频语义分割基 - CVPR改变压缩视频分辨率以高效进行语义分割
本文提出了一种称为 AR-Seg 的改变分辨率框架,旨在通过使用低分辨率来减少非关键帧的计算成本,同时避免降采样引起的性能下降,CReFF 模块能够更好地进行空间对齐和聚合,FST 策略能够通过显式相似性损失和隐式约束提高分割准确性,Cam - ECCV挖掘视频语义分割的跨帧亲和性关系
本文从挖掘帧间关联的角度出发,提出了一种使用 “Single-scale Affinity Refinement” 和 “Multi-scale Affinity Aggregation” 加强帧间亲和力的方法,该方法在视频语义分割任务中性 - ECCV基于时间伪监督的领域自适应视频分割
本文提出了一种基于时序伪监督的方法(TPS)来进行视频语义分割,该方法可以在适应有标签的源域到无标签的目标域时,通过跨视频帧产生伪标签的方式缓解数据标注的限制,从而提升了处理多样性目标数据时的准确率。实验证明,TPS 比现有技术更稳定,更简 - 适用于实时视频分割的失真感知网络剪枝和特征重用
本文提出了一个新的框架,利用视频中的时空局部性来加速实时视觉任务中带有跳跃连接的任何结构,通过基于失真的门控机制动态删除残差块来在当前帧的区域上执行骨干网络的部分计算。
- ECCV流式多尺度深度平衡模型
StreamDEQ 是一种使用隐式层模型连续推断每帧视频表示且利用先前帧的表示作为初始条件的方法,通过实验证明,StreamDEQ 在几帧的实验时间内准确地恢复了近乎最优的表示,并且可以在视频显示期间保持最新的表示。
- MM视频分割中的感知一致性
本文提出了一种基于感知一致性的视频语义分割方法,既可以捕捉时序一致性,又可以捕捉像素级的正确性。利用感知一致性方法对视频中连续帧的分割图进行一致性度量,可以更准确地评估视频分割的时序一致性,并且可以通过将感知一致性与分割置信度相结合,更有信 - 视频语义分割的无监督域自适应
本文提出了一种新的、针对视频语义分割的无监督域自适应方法,通过视频对抗训练和视频自我训练等网络,在实验中取得了优异的成绩,表明这一方法可以有效地将模拟数据转移到实际场景中,缓解视频领域对数据的需求。
- ICCV通过时间一致性正则化实现域自适应视频分割
本文提出 DA-VSN 用于视频语义分割,该模型通过领域自适应实现了对不同领域视频间的域差距问题解决,并使用一种基于时序一致性的规则(TCR)来提高模型性能。
- MMWeClick: 使用点击标注进行弱监督视频语义分割
本研究提出了一种基于点击注释的有效的弱监督视频语义分割管线 WeClick,使用了两种不同的知识蒸馏策略来学习模型并提升视频语义分割的效果,在实时执行方面表现较好。