PVO: 全景视觉里程计

CVPRJul, 2022

PVO: Panoptic Visual Odometry

Weicai Ye, Xinyue Lan, Shuo Chen, Yuhang Ming, Xingyuan Yu...

TL;DRPVO 是一种新型全景视觉里程计框架，它采用图像全景分割指导增强视觉里程计模块，并且通过迭代优化实现全景视觉里程计和视频全景分割的相互促进。实验证明，与现有方法相比，PVO 在视觉里程计和视频全景分割任务方面的性能更优。

Abstract

We present PVO, a novel panoptic visual odometry framework to achieve more comprehensive modeling of the scene motion, geometry, and panoptic seg

panoptic visual odometry scene motion panoptic segmentation dynamic mask video panoptic segmentation

发现论文，激发创造

视觉里程计再探：应该学习什么？

本文提出了一种单目视觉里程计算法，它结合了基于几何方法和深度学习的思想，并利用两个卷积神经网络进行深度估计和光流估计。在 KITTI 数据集上的实验表明，该算法具有较强的鲁棒性和良好的性能。

Sep, 2019

在全景野外场景下的视频对象分割

本文提出了半监督视频对象分割的概念，给出了 Panoptic Wild Scenes 的大型基准和基线方法，建立了 VIPOSeg 数据集，提出了基于当下流行的 Transformer 的网格架构的强基线方法 PAOT，在 VIPOSeg 和其他 VOS 基准中取得了 SOTA 的性能，并在 VOT2022 挑战活动中获得第一名。

May, 2023

2024 年 PVUW 挑战赛第二名解决方案：视频全景分割

我们提出了一个强大的整合视频全景分割解决方案，该方案基于 DVIS ++ 框架生成初始掩模，然后添加了额外的图像语义分割模型以进一步提高语义类别的性能。最终，我们的方法在视频全景分割任务中取得了 56.36 和 57.12 的 VPQ 得分，分别在开发和测试阶段排名第二。

Jun, 2024

视频全景分割

本文提出了一种名为 Video Panoptic Segmentation 的新型视觉识别任务，同时提出了两个视频全景数据集，以及一种 VPSNet 网络，在 VPQ 度量下，在 Cityscapes-VPS 和 VIPER 数据集上实现了最先进的结果。

Jun, 2020

PVUW 2024 挑战赛三等奖解决方案：视频全景分割

通过引入综合方法，基于 DVIS++ 模型和查询式集合的补充技术，我们提出的方案在 VIPSeg 测试集上取得了 57.01 的 VPQ 分数，并在第 3 届 Pixel-level Video Understanding in the Wild Challenge 的 VPS 赛道中排名第三。

Jun, 2024

带姿态监督的显著稀疏视觉里程计

该论文提出了一种新的混合视觉里程计（VO）框架，利用仅姿态监督来平衡鲁棒性和对大量标注的需求，并采用自我监督的同态学习和随机基于补丁的显著点检测策略，提高系统在各种具有挑战性的环境中的泛化能力。该方法在标准数据集上具有竞争力的性能，并在极端和未知场景中表现出更高的鲁棒性和泛化能力，甚至超过基于密集光流监督的最先进方法。

Apr, 2024

全景视频场景图生成

通过建立综合的真实世界视觉感知系统，我们提出并研究了一个称为全景场景图生成（PVSG）的新问题。PVSG 与现有的视频场景图生成（VidSGG）问题相关，后者侧重于视频中的人与物体之间的时间交互，并基于边界框进行实体识别。然而，边界框在检测非刚性物体和背景方面的局限性常常导致 VidSGG 遗漏关键细节，而 PVSG 则要求场景图中的节点由更精确的像素级分割掩码实体识别，以促进整体场景理解。为了推动这一新领域的研究，我们贡献了 PVSG 数据集，其中包含 400 个视频（289 个第三人称视频 + 111 个自我中心视频），包含 150K 帧用于全景分割掩码以及精细的时间场景图。我们还提供了各种基准方法，并分享了未来工作的有用设计实践。

Nov, 2023

ViP-DeepLab：深入学习基于深度感知的全景视频分割的视觉感知

ViP-DeepLab 是一种联合模型，尝试解决视觉中长期存在且具有挑战性的逆投影问题。该模型通过联合执行单眼深度估计和视频全景分割来处理该问题，并提供每个点的实例级语义解释。在子任务中，ViP-DeepLab 也取得了最先进的结果，在 Cityscapes-VPS 中超越以前的方法 5.1％ VPQ，在 KITTI 单眼深度估计基准测试中排名第一，在 KITTI MOTS 中排名第一。

Dec, 2020

自我改进的视觉里程计

我们提出了一种自我监督学习框架，使用未标记的单眼视频序列生成大规模监督，用于训练视觉里程计前端，并使用输出来创建自我监督数据集以重新训练前端。

Dec, 2018

ViPR: 基于视觉里程计辅助的 6 自由度相机定位姿态回归

提出了一种使用深度学习技术的长期机器人导航方法 ViPR，通过结合绝对位姿估计和相对位姿估计，利用时序信息和模块化的设计，并在已知数据集和工业数据集上取得了较好的效果。

Dec, 2019