视频全景分割
为应对在野外进行视频全景分割任务,我们提出了一种强大的综合视频全景分割解决方案,通过将视频全景分割任务视为分割目标查询任务,利用神经网络提取的视频特征来预测分割掩码,同时添加了视频语义分割和视频实例分割等额外任务进行联合训练,提高了解决方案的学习准确性和收敛速度,最终在 VIPSeg 数据集上获得了第三名的好成绩。
Jun, 2023
该论文提出了 Slot-VPS 框架,使用对象中心学习的方法,将所有视频中的 panoptic 实体编码成 panoptic slots,通过 Video Panoptic Retriever 来检索和编码统一的空间 - 时间信息,实现了对视频中对象的定位、分割、区分和关联,从而实现了 Video Panoptic Segmentation 任务的端到端处理。该方法在 Cityscapes-VPS 和 VIPER 数据集上均取得了 63.7,63.3,56.2 VPQ 的最优性能。
Dec, 2021
本文提出了一种用于全景分割的深度神经网络,将语义分割与实例分割任务联合起来,从而在单次计算中为输入图像的每个像素提供类标签和唯一对象标识符,并且通过增强信息共享和合并启发式方法,单个网络的性能提高,如在 Cityscapes 上可获得 45.9 的 PQ 分数。
Feb, 2019
本文提出了半监督视频对象分割的概念,给出了 Panoptic Wild Scenes 的大型基准和基线方法,建立了 VIPOSeg 数据集,提出了基于当下流行的 Transformer 的网格架构的强基线方法 PAOT,在 VIPOSeg 和其他 VOS 基准中取得了 SOTA 的性能,并在 VOT2022 挑战活动中获得第一名。
May, 2023
ViP-DeepLab 是一种联合模型,尝试解决视觉中长期存在且具有挑战性的逆投影问题。该模型通过联合执行单眼深度估计和视频全景分割来处理该问题,并提供每个点的实例级语义解释。在子任务中,ViP-DeepLab 也取得了最先进的结果,在 Cityscapes-VPS 中超越以前的方法 5.1% VPQ,在 KITTI 单眼深度估计基准测试中排名第一,在 KITTI MOTS 中排名第一。
Dec, 2020
本文介绍了一种基于解耦策略的视频全景分割方法,该方法在开发和测试阶段分别达到了 51.4 和 53.7 的 VPQ 得分,并在第二届 PVUW 挑战赛的 VPS 赛道上排名第一。
Jun, 2023
本文探讨了如何通过学习粗略的分段级别和细微的像素级别匹配来实现动态场景的全景理解,提出了两个新颖的学习目标,并采用深度孪生模型来验证提议,最终在 Cityscapes-VPS 和 VIPER 数据集上实现了新的最新成果,同时也提高了模型的时间效率。
Jun, 2021
本研究提出了一种名为 Fast Panoptic Segmentation Network(FPSNet)的端到端网络,将全景任务转化为自定义的密集像素分类任务以实现像素级分类和实例识别,在 Cityscapes 和 Pascal VOC 数据集上取得了更好或类似的全景分割性能,比现有的全景分割方法更快。
Oct, 2019