本文提出了一种单目视觉里程计算法,它结合了基于几何方法和深度学习的思想,并利用两个卷积神经网络进行深度估计和光流估计。在 KITTI 数据集上的实验表明,该算法具有较强的鲁棒性和良好的性能。
Sep, 2019
本文提出了半监督视频对象分割的概念,给出了 Panoptic Wild Scenes 的大型基准和基线方法,建立了 VIPOSeg 数据集,提出了基于当下流行的 Transformer 的网格架构的强基线方法 PAOT,在 VIPOSeg 和其他 VOS 基准中取得了 SOTA 的性能,并在 VOT2022 挑战活动中获得第一名。
May, 2023
我们提出了一个强大的整合视频全景分割解决方案,该方案基于 DVIS ++ 框架生成初始掩模,然后添加了额外的图像语义分割模型以进一步提高语义类别的性能。最终,我们的方法在视频全景分割任务中取得了 56.36 和 57.12 的 VPQ 得分,分别在开发和测试阶段排名第二。
Jun, 2024
本文提出了一种名为 Video Panoptic Segmentation 的新型视觉识别任务,同时提出了两个视频全景数据集,以及一种 VPSNet 网络,在 VPQ 度量下,在 Cityscapes-VPS 和 VIPER 数据集上实现了最先进的结果。
Jun, 2020
通过引入综合方法,基于 DVIS++ 模型和查询式集合的补充技术,我们提出的方案在 VIPSeg 测试集上取得了 57.01 的 VPQ 分数,并在第 3 届 Pixel-level Video Understanding in the Wild Challenge 的 VPS 赛道中排名第三。
该论文提出了一种新的混合视觉里程计(VO)框架,利用仅姿态监督来平衡鲁棒性和对大量标注的需求,并采用自我监督的同态学习和随机基于补丁的显著点检测策略,提高系统在各种具有挑战性的环境中的泛化能力。该方法在标准数据集上具有竞争力的性能,并在极端和未知场景中表现出更高的鲁棒性和泛化能力,甚至超过基于密集光流监督的最先进方法。
Apr, 2024
通过建立综合的真实世界视觉感知系统,我们提出并研究了一个称为全景场景图生成(PVSG)的新问题。PVSG 与现有的视频场景图生成(VidSGG)问题相关,后者侧重于视频中的人与物体之间的时间交互,并基于边界框进行实体识别。然而,边界框在检测非刚性物体和背景方面的局限性常常导致 VidSGG 遗漏关键细节,而 PVSG 则要求场景图中的节点由更精确的像素级分割掩码实体识别,以促进整体场景理解。为了推动这一新领域的研究,我们贡献了 PVSG 数据集,其中包含 400 个视频(289 个第三人称视频 + 111 个自我中心视频),包含 150K 帧用于全景分割掩码以及精细的时间场景图。我们还提供了各种基准方法,并分享了未来工作的有用设计实践。
Nov, 2023
ViP-DeepLab 是一种联合模型,尝试解决视觉中长期存在且具有挑战性的逆投影问题。该模型通过联合执行单眼深度估计和视频全景分割来处理该问题,并提供每个点的实例级语义解释。在子任务中,ViP-DeepLab 也取得了最先进的结果,在 Cityscapes-VPS 中超越以前的方法 5.1% VPQ,在 KITTI 单眼深度估计基准测试中排名第一,在 KITTI MOTS 中排名第一。
Dec, 2020
我们提出了一种自我监督学习框架,使用未标记的单眼视频序列生成大规模监督,用于训练视觉里程计前端,并使用输出来创建自我监督数据集以重新训练前端。
Dec, 2018
提出了一种使用深度学习技术的长期机器人导航方法 ViPR,通过结合绝对位姿估计和相对位姿估计,利用时序信息和模块化的设计,并在已知数据集和工业数据集上取得了较好的效果。
Dec, 2019