PVUW2023 VSS 赛道第三名方案：基于大型模型的 VSPW 语义分割

CVPRJun, 2023

PVUW2023 VSS 赛道第三名方案：基于大型模型的 VSPW 语义分割

3rd Place Solution for PVUW2023 VSS Track: A Large Model for Semantic Segmentation on VSPW

Shijie Chang, Zeqi Hao, Ben Kang, Xiaoqi Zhao, Jiawen Zhu...

TL;DR本论文介绍了基于 InternImage-H 和 Mask2former 的视觉背骨和分割头以及 CascadePSP 和 Segment Anything Model 这两种后处理方法在视频语义分割中的应用，最终在 PVUW2023 VSS 赛道排名第三。

Abstract

In this paper, we introduce 3rd place solution for PVUW2023 VSS track. semantic segmentation is a fundamental task in computer vision with numerous real-world applications. We have explored various image-level

semantic segmentation computer vision visual backbones segmentation heads post-processing methods

发现论文，激发创造

基于遮罩视频一致性的 VSPW 数据集语义分割

我们提出了基于现有模型的基于蒙版视频一致性 (MVC) 的解决方案，通过在预测过程中强制保持遮挡帧之间的一致性来学习蒙版部分的分割结果和视频的前后帧之间的关系，同时采用测试时增强、模型聚合和多模态模型后处理方法，该方法在 VSPW 数据集上获得了 67.27％的 mIoU 性能，在 PVUW2024 挑战 VSS 跟踪中排名第 2。

Jun, 2024

PVUW Challenge 2023 比赛中的第三名解决方案：视频全景分割

为应对在野外进行视频全景分割任务，我们提出了一种强大的综合视频全景分割解决方案，通过将视频全景分割任务视为分割目标查询任务，利用神经网络提取的视频特征来预测分割掩码，同时添加了视频语义分割和视频实例分割等额外任务进行联合训练，提高了解决方案的学习准确性和收敛速度，最终在 VIPSeg 数据集上获得了第三名的好成绩。

Jun, 2023

2024 年 PVUW 挑战赛第二名解决方案：视频全景分割

我们提出了一个强大的整合视频全景分割解决方案，该方案基于 DVIS ++ 框架生成初始掩模，然后添加了额外的图像语义分割模型以进一步提高语义类别的性能。最终，我们的方法在视频全景分割任务中取得了 56.36 和 57.12 的 VPQ 得分，分别在开发和测试阶段排名第二。

Jun, 2024

2024 年野外像素级视频理解竞赛（CVPR'24 PVUW）中视频全景分割优胜者，以及视频语义分割最佳长视频一致性

该研究论文详细介绍了我们在 PVUW'24 VPS 挑战中获得第一名的研究工作，以及在 PVUW'24 VSS 挑战中获得第三名的研究工作，该方案基于 DINOv2 ViT-g 视觉转换模型和多阶段分离的视频实例分割 (DVIS) 框架。

Jun, 2024

通过对比损失和多数据集训练方法在 VSPW 数据集上进行语义分割

本文针对视频语义分割问题，探究利用对比损失增强时空相关性，以及多数据集训练对模型的影响，并将两种模型的输出进行聚合，最终在 VSPW 数据集上达到了 65.95% mIoU 的性能，在 CVPR 2023 的 VSPW 挑战上取得了第一名。

Jun, 2023

PVUW 2024 挑战赛三等奖解决方案：视频全景分割

通过引入综合方法，基于 DVIS++ 模型和查询式集合的补充技术，我们提出的方案在 VIPSeg 测试集上取得了 57.01 的 VPQ 分数，并在第 3 届 Pixel-level Video Understanding in the Wild Challenge 的 VPS 赛道中排名第三。

Jun, 2024

CVPR2024 PVUW 工作坊 MOSE 跟踪比赛第二名解决方案：复杂视频目标分割

我们在 MOSE 轨道的 PVUW 2024 比赛中排名第二，并采用实例分割、运动模糊、测试时间增强和记忆策略等方法来提高视频对象分割的准确性。

Jun, 2024

PVUW2024 的半监督视频语义分割：利用不可靠的伪标签

通过采用基于不可靠伪标签的半监督视频语义分割方法，并使用教师网络模型和学生网络模型进行集成，本文在视频场景解析中取得了较高的 mIoU 分数，并在 CVPR 2024 的 Video Scene Parsing in the Wild Challenge 中获得了第一名。

Jun, 2024

PVUW 挑战赛 2023 年视频全景分割问题的第一名解决方案

本文介绍了一种基于解耦策略的视频全景分割方法，该方法在开发和测试阶段分别达到了 51.4 和 53.7 的 VPQ 得分，并在第二届 PVUW 挑战赛的 VPS 赛道上排名第一。

Jun, 2023

2024 PVUW 工作坊 CVPR 赛道多目标视频分割冠军解决方案

在视频目标分割领域，尤其是对象被遮挡和分割成部分的复杂场景中，追踪和分割多个对象一直是一项挑战。本研究提出了一种基于语义嵌入的视频目标分割模型，使用对象的显著特征作为查询表征，通过语义理解帮助模型识别对象的部分，并捕捉对象更具辨识性的特征。在大规模视频目标分割数据集上进行训练，我们的模型在 2024 年 PVUW Challenge 复杂视频目标分割赛道的测试集中取得第一名（84.45%）。

Jun, 2024