第 5 届 LSVOS 挑战赛冠军解决方案:视频实例分割
提出一种分离策略,并应用于视频实例分割任务,包括分割、跟踪和细化,使用引用跟踪器和时间细化器构建 Decoupled VIS 框架 (DVIS),并在 OVIS 和 VIPSeg 数据集上取得了新的 SOTA 表现。
Jun, 2023
本文提出了一种基于 CondInst 方法和单阶段的跟踪头的简单高效的视频实例分割框架,利用新颖的双向时空对比学习策略和实例级别的时间一致性方案来提高实例关联性准确性,在 YouTube-VIS-2019,YouTube-VIS-2021 和 OVIS-2021 数据集上验证了该方法的有效性和效率。
Feb, 2022
本文提出了开放词汇视频实例分割这一新颖任务,在收集的大词汇量视频实例分割数据集上基于集成的 MindVLT 实现了该任务。实验结果表明,该方法能够有效地处理实际中从未见过的新类别,并且提供了数据集和代码以促进未来的研究。
Apr, 2023
通过将 RVOS 模型与 Two-Stage Multi-Model Fusion 策略结合,提出了一种有效的模式,该模式在 Ref-Youtube-VOS 验证集上实现了 75.7% 的 J&F, 在测试集上实现了 70% 的 J&F,在第 5 届大规模视频对象分割挑战(ICCV 2023)的第 3 组中排名第一。
Jan, 2024
我们收集了一个大规模的被遮挡的视频实例分割数据集,即检测,在遮挡场景中同时分割和跟踪实例,实验表明,现有的视频理解系统无法理解这些被遮挡的实例,我们还提出了一个简单的插件模块,用于补充遮挡引起的缺失对象线索,建立在 MaskTrack R-CNN 和 SipMask 上,在 OVIS 数据集上取得了显着的 AP 提升。
Feb, 2021
我们提出了一种新颖的 Decoupled VIdeo Segmentation (DVIS) 框架,用于解决通用视频分割的难题,包括视频实例分割 (VIS),视频语义分割 (VSS) 和视频全景分割 (VPS)。通过将视频分割解耦成三个级联的子任务:分割,跟踪和细化,我们的方法可以更简单、更有效地建模对象的时空表示,特别是在复杂场景和长视频中。我们引入了两个新颖的组件:引用跟踪器和时序细化器,这些组件对物体进行逐帧跟踪,并基于预对齐特征建模时空表示。为了改善 DVIS 的跟踪能力,我们提出了一种去噪训练策略,并引入对比学习,从而得到更强大的名为 DVIS++ 的框架。此外,我们在多种设置下评估了 DVIS++,包括开放词汇和使用冻结预训练骨干。通过将 CLIP 与 DVIS++ 集成,我们提出了 OV-DVIS++,第一个开放词汇的通用视频分割框架。我们在包括 VIS、VSS 和 VPS 数据集在内的六个主流基准上进行了大量实验证明,在接近词汇和开放词汇的设置下,DVIS++ 在这些基准上明显优于最先进的专门方法。
Dec, 2023
通过减少视频帧中的人工注释点为每个对象,我们提出了一种训练方法来获得接近完全监督模型的高质量掩码预测,在三个视频示例分割基准上展示了该框架的竞争性性能。
Apr, 2024
近年来,利用强大的基于查询的检测器,在线视频实例分割(VIS)方法在帧级别利用检测器的输出查询,取得了极高的准确性。然而,我们观察到这些方法对位置信息的严重依赖导致在位置提示不足以解决模糊性时出现错误匹配。针对这个问题,我们提出了 VISAGE,通过显式利用外观信息来增强实例关联。我们的方法包括生成从骨干特征图中嵌入外观的查询,并在我们建议的简单跟踪器中使用这些查询以实现稳健的关联。最后,通过解决对位置信息过度依赖的问题,在复杂场景中实现了准确匹配,我们在多个 VIS 基准测试上取得了有竞争力的性能。例如,在 YTVIS19 和 YTVIS21 上,我们的方法分别达到了 54.5AP 和 50.8AP。此外,为了凸显现有基准测试尚未完全解决的外观感知问题,我们生成了一个合成数据集,在利用外观提示的情况下,我们的方法明显优于其他方法。代码将在此 URL 提供。
Dec, 2023
本研究提出和研究了一项新的计算机视觉任务,名为 OpenVIS,该任务旨在根据对应的文本描述同时分割,检测和跟踪视频中的任意对象。通过开放词汇的设计,OpenVIS 可以识别所需类别的对象,而不管这些类别是否包括在训练数据集中。为了实现这一目标,本文提出了一个由两个阶段组成的流程,首先利用基于查询的蒙版提议网络生成所有潜在对象的蒙版,并通过预先训练的 VLM 预测其对应的类别,其次通过提议后处理方法更好地适应预训练的 VLMs,以避免扭曲和不自然的提议输入。
May, 2023