基于遮罩视频一致性的 VSPW 数据集语义分割

Jun, 2024

基于遮罩视频一致性的 VSPW 数据集语义分割

Semantic Segmentation on VSPW Dataset through Masked Video Consistency

Chen Liang, Qiang Guo, Chongkai Yu, Chengjing Wu, Ting Liu...

TL;DR我们提出了基于现有模型的基于蒙版视频一致性 (MVC) 的解决方案，通过在预测过程中强制保持遮挡帧之间的一致性来学习蒙版部分的分割结果和视频的前后帧之间的关系，同时采用测试时增强、模型聚合和多模态模型后处理方法，该方法在 VSPW 数据集上获得了 67.27％的 mIoU 性能，在 PVUW2024 挑战 VSS 跟踪中排名第 2。

Abstract

pixel-level video understanding requires effectively integrating three-dimensional data in both spatial and temporal dimensions to learn accurate and stable semantic information from continuous frames. However, existing advanced models on the VSPW dataset have not fully modeled

pixel-level video understanding spatiotemporal relationships masked video consistency segmentation test-time augmentation

发现论文，激发创造

通过对比损失和多数据集训练方法在 VSPW 数据集上进行语义分割

本文针对视频语义分割问题，探究利用对比损失增强时空相关性，以及多数据集训练对模型的影响，并将两种模型的输出进行聚合，最终在 VSPW 数据集上达到了 65.95% mIoU 的性能，在 CVPR 2023 的 VSPW 挑战上取得了第一名。

Jun, 2023

PVUW2023 VSS 赛道第三名方案：基于大型模型的 VSPW 语义分割

本论文介绍了基于 InternImage-H 和 Mask2former 的视觉背骨和分割头以及 CascadePSP 和 Segment Anything Model 这两种后处理方法在视频语义分割中的应用，最终在 PVUW2023 VSS 赛道排名第三。

Jun, 2023

2024 年野外像素级视频理解竞赛（CVPR'24 PVUW）中视频全景分割优胜者，以及视频语义分割最佳长视频一致性

该研究论文详细介绍了我们在 PVUW'24 VPS 挑战中获得第一名的研究工作，以及在 PVUW'24 VSS 挑战中获得第三名的研究工作，该方案基于 DINOv2 ViT-g 视觉转换模型和多阶段分离的视频实例分割 (DVIS) 框架。

Jun, 2024

用于高效视频语义分割的蒙版传播

视频语义分割（VSS）通过为视频序列中的每个像素分配语义标签来完成。本文提出了一种名为 MPVSS 的高效掩码传播框架，通过利用学习到的查询生成一组与关键帧的掩码预测相关的面向片段的流图，并将这些掩码 - 流对变换为非关键帧的掩码预测，从而在保证精度的同时大幅降低计算成本。经过 VSPW 和 Cityscapes 等数据集的大量实验证明，我们的框架在准确性和效率方面取得了 SOTA 水平的折衷，最佳模型在 VSPW 数据集上使用 Swin-L 骨干网络相比于 SOTA MRCFA（使用 MiT-B5）的 mIoU 提高了 4.0%，只需要 26% 的 FLOPs。此外，与单帧 Mask2Former 基线相比，我们的框架在 Cityscapes 验证集上降低了高达 4 倍的 FLOPs，仅引起 2% 的 mIoU 降低。

Oct, 2023

PVUW2024 的半监督视频语义分割：利用不可靠的伪标签

通过采用基于不可靠伪标签的半监督视频语义分割方法，并使用教师网络模型和学生网络模型进行集成，本文在视频场景解析中取得了较高的 mIoU 分数，并在 CVPR 2024 的 Video Scene Parsing in the Wild Challenge 中获得了第一名。

Jun, 2024

视频语义分割的时序感知分层掩码分类

我们提出了一个用于视频语义分割（VSS）的新解决方案 THE-Mask，首次引入了时态感知的分层物体查询，并利用简单的两轮匹配机制，在训练过程中以最小代价匹配更多的查询对象，同时在推理过程中无需任何额外代价。为了支持多对一的分配，我们设计了一种分层损失来训练带有相应主次层级关系的查询。此外，为了有效捕捉帧间的时态信息，我们提出了一个时态聚合解码器，以无缝融入 VSS 的掩码分类模型，利用时态敏感的多级查询方法，在最新的具有挑战性的 VSS 基准 VSPW 上取得了最先进的性能。

Sep, 2023

PVUW Challenge 2023 比赛中的第三名解决方案：视频全景分割

为应对在野外进行视频全景分割任务，我们提出了一种强大的综合视频全景分割解决方案，通过将视频全景分割任务视为分割目标查询任务，利用神经网络提取的视频特征来预测分割掩码，同时添加了视频语义分割和视频实例分割等额外任务进行联合训练，提高了解决方案的学习准确性和收敛速度，最终在 VIPSeg 数据集上获得了第三名的好成绩。

Jun, 2023

2024 年 PVUW 挑战赛第二名解决方案：视频全景分割

我们提出了一个强大的整合视频全景分割解决方案，该方案基于 DVIS ++ 框架生成初始掩模，然后添加了额外的图像语义分割模型以进一步提高语义类别的性能。最终，我们的方法在视频全景分割任务中取得了 56.36 和 57.12 的 VPQ 得分，分别在开发和测试阶段排名第二。

Jun, 2024

PVUW 2024 挑战赛三等奖解决方案：视频全景分割

通过引入综合方法，基于 DVIS++ 模型和查询式集合的补充技术，我们提出的方案在 VIPSeg 测试集上取得了 57.01 的 VPQ 分数，并在第 3 届 Pixel-level Video Understanding in the Wild Challenge 的 VPS 赛道中排名第三。

Jun, 2024

复杂视频理解的 PVUW 2024 挑战：方法与结果

复杂环境下像素级视频理解的挑战，提供了基于 MOSE 数据集的复杂视频对象分割以及基于 MeViS 数据集的运动表达引导的视频分割两个新的跟踪，并通过提供具有挑战性元素的额外视频和注释来促进像素级视频场景的综合和强大的理解。

Jun, 2024