ViP-DeepLab：深入学习基于深度感知的全景视频分割的视觉感知

Dec, 2020

ViP-DeepLab：深入学习基于深度感知的全景视频分割的视觉感知

ViP-DeepLab: Learning Visual Perception with Depth-aware Video Panoptic Segmentation

Siyuan Qiao, Yukun Zhu, Hartwig Adam, Alan Yuille, Liang-Chieh Chen

TL;DRViP-DeepLab 是一种联合模型，尝试解决视觉中长期存在且具有挑战性的逆投影问题。该模型通过联合执行单眼深度估计和视频全景分割来处理该问题，并提供每个点的实例级语义解释。在子任务中，ViP-DeepLab 也取得了最先进的结果，在 Cityscapes-VPS 中超越以前的方法 5.1％ VPQ，在 KITTI 单眼深度估计基准测试中排名第一，在 KITTI MOTS 中排名第一。

Abstract

In this paper, we present vip-deeplab, a unified model attempting to tackle the long-standing and challenging inverse projection problem in vision, which we model as restoring the point clouds from perspective im

vip-deeplab inverse projection problem depth-aware video panoptic segmentation monocular depth estimation video panoptic segmentation

发现论文，激发创造

PolyphonicFormer: 深度感知视频全景分割的统一查询学习

本文提出了一种称为 PolyphonicFormer 的视觉变换器，它使用查询查询技术将深度估计与全景分割统一起来，具有更好的性能。通过实验证明了我们的方法在深度估计和全景分割方面取得了最先进的结果，并在 ICCV-2021 BMTT 挑战赛中获得了第一名。

Dec, 2021

视频全景分割

本文提出了一种名为 Video Panoptic Segmentation 的新型视觉识别任务，同时提出了两个视频全景数据集，以及一种 VPSNet 网络，在 VPQ 度量下，在 Cityscapes-VPS 和 VIPER 数据集上实现了最先进的结果。

Jun, 2020

全景式深度实验室

Panoptic-DeepLab 采取了双重 ASPP 和双重解码器结构，实现了单次扫描的全景分割，并在 Cityscapes 和 Mapillary Vistas 数据集上取得了最新的最优结果。

Oct, 2019

Panoptic-DeepLab: 一种简单、强大、快速的自下而上全景分割基线

Panoptic-DeepLab 是一个用于全景分割的模型，具有简单、强大和快速的特点。通过采用语义和实例分割的双重 ASPP 和双重解码器结构，同时使用语义分割模型的典型设计和类别不可知的实例中心回归，Panoptic-DeepLab 超过了所有三个 Cityscapes 基准测试，取得了新的最佳表现，并在 Mapillary Vistas 测试集上提供了未来领先的 42.7％ PQ 精度.

Nov, 2019

2D-3D 视觉 - 语言蒸馏的 3D 开放词汇全景分割

我们提出了一种新方法，通过学习 LiDAR 特征和固定的 CLIP 特征之间的融合来处理 3D 开放式词汇全景分割问题，并提出了两个新的损失函数：物体级蒸馏损失和体素级蒸馏损失。在 nuScenes 和 SemanticKITTI 数据集上的实验证明，我们的方法显著优于强基准模型。

Jan, 2024

深度统一的面向深度感知全景分割与双向引导学习

深度感知全景分割是计算机视觉中的新兴话题，结合了语义和几何理解，以实现更稳健的场景解释。我们提出了一种深度统一框架，用于深度感知全景分割，通过相同的对象查询以分段方式执行联合分割和深度估计。为了缩小两个任务之间的差距，我们进一步设计了一种几何查询增强方法，利用潜在表示将场景几何集成到对象查询中。此外，我们提出了一种双向引导学习方法，通过利用它们的相互关系来促进跨任务特征学习。我们的方法在 Cityscapes-DVPS 和 SemKITTI-DVPS 数据集上树立了深度感知全景分割的最新技术水平，并且我们的引导学习方法还在不完整监督标签下提高了性能。

Jul, 2023

PVUW Challenge 2023 比赛中的第三名解决方案：视频全景分割

为应对在野外进行视频全景分割任务，我们提出了一种强大的综合视频全景分割解决方案，通过将视频全景分割任务视为分割目标查询任务，利用神经网络提取的视频特征来预测分割掩码，同时添加了视频语义分割和视频实例分割等额外任务进行联合训练，提高了解决方案的学习准确性和收敛速度，最终在 VIPSeg 数据集上获得了第三名的好成绩。

Jun, 2023

2024 年 PVUW 挑战赛第二名解决方案：视频全景分割

我们提出了一个强大的整合视频全景分割解决方案，该方案基于 DVIS ++ 框架生成初始掩模，然后添加了额外的图像语义分割模型以进一步提高语义类别的性能。最终，我们的方法在视频全景分割任务中取得了 56.36 和 57.12 的 VPQ 得分，分别在开发和测试阶段排名第二。

Jun, 2024

PVUW 2024 挑战赛三等奖解决方案：视频全景分割

通过引入综合方法，基于 DVIS++ 模型和查询式集合的补充技术，我们提出的方案在 VIPSeg 测试集上取得了 57.01 的 VPQ 分数，并在第 3 届 Pixel-level Video Understanding in the Wild Challenge 的 VPS 赛道中排名第三。

Jun, 2024

Slot-VPS：视频全景分割的面向对象表示学习

该论文提出了 Slot-VPS 框架，使用对象中心学习的方法，将所有视频中的 panoptic 实体编码成 panoptic slots，通过 Video Panoptic Retriever 来检索和编码统一的空间 - 时间信息，实现了对视频中对象的定位、分割、区分和关联，从而实现了 Video Panoptic Segmentation 任务的端到端处理。该方法在 Cityscapes-VPS 和 VIPER 数据集上均取得了 63.7，63.3，56.2 VPQ 的最优性能。

Dec, 2021