PVUW 挑战赛 2023 年视频全景分割问题的第一名解决方案
通过引入综合方法,基于 DVIS++ 模型和查询式集合的补充技术,我们提出的方案在 VIPSeg 测试集上取得了 57.01 的 VPQ 分数,并在第 3 届 Pixel-level Video Understanding in the Wild Challenge 的 VPS 赛道中排名第三。
Jun, 2024
我们提出了一个强大的整合视频全景分割解决方案,该方案基于 DVIS ++ 框架生成初始掩模,然后添加了额外的图像语义分割模型以进一步提高语义类别的性能。最终,我们的方法在视频全景分割任务中取得了 56.36 和 57.12 的 VPQ 得分,分别在开发和测试阶段排名第二。
Jun, 2024
为应对在野外进行视频全景分割任务,我们提出了一种强大的综合视频全景分割解决方案,通过将视频全景分割任务视为分割目标查询任务,利用神经网络提取的视频特征来预测分割掩码,同时添加了视频语义分割和视频实例分割等额外任务进行联合训练,提高了解决方案的学习准确性和收敛速度,最终在 VIPSeg 数据集上获得了第三名的好成绩。
Jun, 2023
该研究论文详细介绍了我们在 PVUW'24 VPS 挑战中获得第一名的研究工作,以及在 PVUW'24 VSS 挑战中获得第三名的研究工作,该方案基于 DINOv2 ViT-g 视觉转换模型和多阶段分离的视频实例分割 (DVIS) 框架。
Jun, 2024
本文提出了一种名为 Video Panoptic Segmentation 的新型视觉识别任务,同时提出了两个视频全景数据集,以及一种 VPSNet 网络,在 VPQ 度量下,在 Cityscapes-VPS 和 VIPER 数据集上实现了最先进的结果。
Jun, 2020
本文提出了一种称为 PolyphonicFormer 的视觉变换器,它使用查询查询技术将深度估计与全景分割统一起来,具有更好的性能。通过实验证明了我们的方法在深度估计和全景分割方面取得了最先进的结果,并在 ICCV-2021 BMTT 挑战赛中获得了第一名。
Dec, 2021
本文提出了半监督视频对象分割的概念,给出了 Panoptic Wild Scenes 的大型基准和基线方法,建立了 VIPOSeg 数据集,提出了基于当下流行的 Transformer 的网格架构的强基线方法 PAOT,在 VIPOSeg 和其他 VOS 基准中取得了 SOTA 的性能,并在 VOT2022 挑战活动中获得第一名。
May, 2023
本论文介绍了基于 InternImage-H 和 Mask2former 的视觉背骨和分割头以及 CascadePSP 和 Segment Anything Model 这两种后处理方法在视频语义分割中的应用,最终在 PVUW2023 VSS 赛道排名第三。
Jun, 2023
该论文提出了 Slot-VPS 框架,使用对象中心学习的方法,将所有视频中的 panoptic 实体编码成 panoptic slots,通过 Video Panoptic Retriever 来检索和编码统一的空间 - 时间信息,实现了对视频中对象的定位、分割、区分和关联,从而实现了 Video Panoptic Segmentation 任务的端到端处理。该方法在 Cityscapes-VPS 和 VIPER 数据集上均取得了 63.7,63.3,56.2 VPQ 的最优性能。
Dec, 2021
ViP-DeepLab 是一种联合模型,尝试解决视觉中长期存在且具有挑战性的逆投影问题。该模型通过联合执行单眼深度估计和视频全景分割来处理该问题,并提供每个点的实例级语义解释。在子任务中,ViP-DeepLab 也取得了最先进的结果,在 Cityscapes-VPS 中超越以前的方法 5.1% VPQ,在 KITTI 单眼深度估计基准测试中排名第一,在 KITTI MOTS 中排名第一。
Dec, 2020