PVUW 挑战赛 2023 年视频全景分割问题的第一名解决方案

Jun, 2023

PVUW 挑战赛 2023 年视频全景分割问题的第一名解决方案

1st Place Solution for PVUW Challenge 2023: Video Panoptic Segmentation

Tao Zhang, Xingye Tian, Haoran Wei, Yu Wu, Shunping Ji...

TL;DR本文介绍了一种基于解耦策略的视频全景分割方法，该方法在开发和测试阶段分别达到了 51.4 和 53.7 的 VPQ 得分，并在第二届 PVUW 挑战赛的 VPS 赛道上排名第一。

Abstract

video panoptic segmentation is a challenging task that serves as the cornerstone of numerous downstream applications, including video editing and autonomous driving. We believe that the decoupling strategy propos

video panoptic segmentation decoupling strategy temporal information vpq score pvuw challenge

发现论文，激发创造

PVUW 2024 挑战赛三等奖解决方案：视频全景分割

通过引入综合方法，基于 DVIS++ 模型和查询式集合的补充技术，我们提出的方案在 VIPSeg 测试集上取得了 57.01 的 VPQ 分数，并在第 3 届 Pixel-level Video Understanding in the Wild Challenge 的 VPS 赛道中排名第三。

Jun, 2024

2024 年 PVUW 挑战赛第二名解决方案：视频全景分割

我们提出了一个强大的整合视频全景分割解决方案，该方案基于 DVIS ++ 框架生成初始掩模，然后添加了额外的图像语义分割模型以进一步提高语义类别的性能。最终，我们的方法在视频全景分割任务中取得了 56.36 和 57.12 的 VPQ 得分，分别在开发和测试阶段排名第二。

Jun, 2024

PVUW Challenge 2023 比赛中的第三名解决方案：视频全景分割

为应对在野外进行视频全景分割任务，我们提出了一种强大的综合视频全景分割解决方案，通过将视频全景分割任务视为分割目标查询任务，利用神经网络提取的视频特征来预测分割掩码，同时添加了视频语义分割和视频实例分割等额外任务进行联合训练，提高了解决方案的学习准确性和收敛速度，最终在 VIPSeg 数据集上获得了第三名的好成绩。

Jun, 2023

2024 年野外像素级视频理解竞赛（CVPR'24 PVUW）中视频全景分割优胜者，以及视频语义分割最佳长视频一致性

该研究论文详细介绍了我们在 PVUW'24 VPS 挑战中获得第一名的研究工作，以及在 PVUW'24 VSS 挑战中获得第三名的研究工作，该方案基于 DINOv2 ViT-g 视觉转换模型和多阶段分离的视频实例分割 (DVIS) 框架。

Jun, 2024

视频全景分割

本文提出了一种名为 Video Panoptic Segmentation 的新型视觉识别任务，同时提出了两个视频全景数据集，以及一种 VPSNet 网络，在 VPQ 度量下，在 Cityscapes-VPS 和 VIPER 数据集上实现了最先进的结果。

Jun, 2020

PolyphonicFormer: 深度感知视频全景分割的统一查询学习

本文提出了一种称为 PolyphonicFormer 的视觉变换器，它使用查询查询技术将深度估计与全景分割统一起来，具有更好的性能。通过实验证明了我们的方法在深度估计和全景分割方面取得了最先进的结果，并在 ICCV-2021 BMTT 挑战赛中获得了第一名。

Dec, 2021

在全景野外场景下的视频对象分割

本文提出了半监督视频对象分割的概念，给出了 Panoptic Wild Scenes 的大型基准和基线方法，建立了 VIPOSeg 数据集，提出了基于当下流行的 Transformer 的网格架构的强基线方法 PAOT，在 VIPOSeg 和其他 VOS 基准中取得了 SOTA 的性能，并在 VOT2022 挑战活动中获得第一名。

May, 2023

PVUW2023 VSS 赛道第三名方案：基于大型模型的 VSPW 语义分割

本论文介绍了基于 InternImage-H 和 Mask2former 的视觉背骨和分割头以及 CascadePSP 和 Segment Anything Model 这两种后处理方法在视频语义分割中的应用，最终在 PVUW2023 VSS 赛道排名第三。

Jun, 2023

Slot-VPS：视频全景分割的面向对象表示学习

该论文提出了 Slot-VPS 框架，使用对象中心学习的方法，将所有视频中的 panoptic 实体编码成 panoptic slots，通过 Video Panoptic Retriever 来检索和编码统一的空间 - 时间信息，实现了对视频中对象的定位、分割、区分和关联，从而实现了 Video Panoptic Segmentation 任务的端到端处理。该方法在 Cityscapes-VPS 和 VIPER 数据集上均取得了 63.7，63.3，56.2 VPQ 的最优性能。

Dec, 2021

ViP-DeepLab：深入学习基于深度感知的全景视频分割的视觉感知

ViP-DeepLab 是一种联合模型，尝试解决视觉中长期存在且具有挑战性的逆投影问题。该模型通过联合执行单眼深度估计和视频全景分割来处理该问题，并提供每个点的实例级语义解释。在子任务中，ViP-DeepLab 也取得了最先进的结果，在 Cityscapes-VPS 中超越以前的方法 5.1％ VPQ，在 KITTI 单眼深度估计基准测试中排名第一，在 KITTI MOTS 中排名第一。

Dec, 2020