用于高效视频语义分割的蒙版传播

Oct, 2023

用于高效视频语义分割的蒙版传播

Mask Propagation for Efficient Video Semantic Segmentation

Yuetian Weng, Mingfei Han, Haoyu He, Mingjie Li, Lina Yao...

TL;DR视频语义分割（VSS）通过为视频序列中的每个像素分配语义标签来完成。本文提出了一种名为 MPVSS 的高效掩码传播框架，通过利用学习到的查询生成一组与关键帧的掩码预测相关的面向片段的流图，并将这些掩码 - 流对变换为非关键帧的掩码预测，从而在保证精度的同时大幅降低计算成本。经过 VSPW 和 Cityscapes 等数据集的大量实验证明，我们的框架在准确性和效率方面取得了 SOTA 水平的折衷，最佳模型在 VSPW 数据集上使用 Swin-L 骨干网络相比于 SOTA MRCFA（使用 MiT-B5）的 mIoU 提高了 4.0%，只需要 26% 的 FLOPs。此外，与单帧 Mask2Former 基线相比，我们的框架在 Cityscapes 验证集上降低了高达 4 倍的 FLOPs，仅引起 2% 的 mIoU 降低。

Abstract

video semantic segmentation (VSS) involves assigning a semantic label to each pixel in a video sequence. Prior work in this field has demonstrated promising results by extending image semantic segmentation models to exploit temporal relationships across video frames; however, these app

video semantic segmentation efficient mask propagation framework mpvss flow estimation module sota accuracy and efficiency trade-offs

发现论文，激发创造

通过运动感知掩模传播进行自监督的视频对象分割

本文提出了一种基于自监督学习的时空匹配方法，称为 Motion-Aware Mask Propagation（MAMP），用于视频对象分割，利用帧重建任务进行训练，而无需进行标注，在 DAVIS-2017 和 YouTube-VOS 数据集上得到了最先进的性能。

Jul, 2021

基于遮罩视频一致性的 VSPW 数据集语义分割

我们提出了基于现有模型的基于蒙版视频一致性 (MVC) 的解决方案，通过在预测过程中强制保持遮挡帧之间的一致性来学习蒙版部分的分割结果和视频的前后帧之间的关系，同时采用测试时增强、模型聚合和多模态模型后处理方法，该方法在 VSPW 数据集上获得了 67.27％的 mIoU 性能，在 PVUW2024 挑战 VSS 跟踪中排名第 2。

Jun, 2024

视频语义分割的时序感知分层掩码分类

我们提出了一个用于视频语义分割（VSS）的新解决方案 THE-Mask，首次引入了时态感知的分层物体查询，并利用简单的两轮匹配机制，在训练过程中以最小代价匹配更多的查询对象，同时在推理过程中无需任何额外代价。为了支持多对一的分配，我们设计了一种分层损失来训练带有相应主次层级关系的查询。此外，为了有效捕捉帧间的时态信息，我们提出了一个时态聚合解码器，以无缝融入 VSS 的掩码分类模型，利用时态敏感的多级查询方法，在最新的具有挑战性的 VSS 基准 VSPW 上取得了最先进的性能。

Sep, 2023

通过视频传播和标签弛豫来改进语义分割

通过视频预测方法合成新的训练样本并引入边界标签松弛技术，使模型对标注噪声和传播伪影更加鲁棒，实现在 Cityscapes 数据集上 83.5%、CamVid 上 82.9% 的 mIoUs 并在 KITTI 语义分割测试集上取得 72.8% 的 mIoU，超过 ROB 挑战 2018 年的获奖模型。

Dec, 2018

MHP-VOS：视频目标分割的多假设传播

本文提出一种新方法来解决半监督视频对象分割问题，采用基于 Multiple Hypotheses Tracking 的 Bounding Box 假设来跟踪视频中的目标物体，并通过基于运动模型的门控策略来产生多个假设，最后采用自定义的算法来处理目标缺失和掩膜冲突等问题，通过大量的测试证明本方法具有良好的效果。

Apr, 2019

在视频数据中传播语义标签

通过结合基于 SfM 的 SAM 模型将视频中的目标进行分割和跟踪的方法，提出一种减少手动注释工作量的视频对象跟踪系统。系统性能经过计算时间、与手动标签的掩码 IOU 和跟踪损失数量等三个指标的评估，结果表明该系统在跟踪视频帧中的物体方面较人工表现有显著计算时间改善，但在性能上存在一定程度的退化。

Oct, 2023

改变压缩视频分辨率以高效进行语义分割

本文提出了一种称为 AR-Seg 的改变分辨率框架，旨在通过使用低分辨率来减少非关键帧的计算成本，同时避免降采样引起的性能下降，CReFF 模块能够更好地进行空间对齐和聚合，FST 策略能够通过显式相似性损失和隐式约束提高分割准确性，CamVid 和 Cityscapes 等多个数据集上，AR-Seg 在不同分割骨干网的情况下实现了最先进的性能。

Mar, 2023

利用掩膜传播对视频中的物体实例进行分类、分割和跟踪

MaskProp 方法采用 Mask R-CNN 对视频中的物体实例进行同时分类、分割和跟踪，通过添加掩码传播分支来适应视频序列，并最终将产生的密集剪辑级实例跟踪汇总，以产生视频级物体实例分割和分类结果。

Dec, 2019

视频目标分割的快速像素匹配

本文提出了一种名为 NPMCA-net 的模型，它结合了 mask-propagation 和非局部技术，直接定位前景物体，既能处理大的物体外观变化，也能更好地适应遮挡，实验结果表明，该方法在速度和性能方面都达到了新的最高水平。

Jul, 2021

基于重识别的视频目标分割

本文提出了一种基于视频对象重识别的视频分割方法，通过使用自适应的目标重识别机制来避免传统方法中的漂移问题和无法处理大位移的弊端，该方法在 2017 年 DAVIS Challenge 中取得了最佳性能。

Aug, 2017