DVIS: 解耦的视频实例分割框架
我们提出了一种新颖的 Decoupled VIdeo Segmentation (DVIS) 框架,用于解决通用视频分割的难题,包括视频实例分割 (VIS),视频语义分割 (VSS) 和视频全景分割 (VPS)。通过将视频分割解耦成三个级联的子任务:分割,跟踪和细化,我们的方法可以更简单、更有效地建模对象的时空表示,特别是在复杂场景和长视频中。我们引入了两个新颖的组件:引用跟踪器和时序细化器,这些组件对物体进行逐帧跟踪,并基于预对齐特征建模时空表示。为了改善 DVIS 的跟踪能力,我们提出了一种去噪训练策略,并引入对比学习,从而得到更强大的名为 DVIS++ 的框架。此外,我们在多种设置下评估了 DVIS++,包括开放词汇和使用冻结预训练骨干。通过将 CLIP 与 DVIS++ 集成,我们提出了 OV-DVIS++,第一个开放词汇的通用视频分割框架。我们在包括 VIS、VSS 和 VPS 数据集在内的六个主流基准上进行了大量实验证明,在接近词汇和开放词汇的设置下,DVIS++ 在这些基准上明显优于最先进的专门方法。
Dec, 2023
视频实例分割方法 DVIS 在训练过程中引入了去噪策略以实现在复杂和长视频中更稳定准确的目标跟踪,并利用 DINO v2 预训练的冻结的 VIT-L 模型探索了视觉基础模型在视频实例分割中的作用,最终在第 5 届 LSVOS 挑战赛中获得了第一名,其在开发和测试阶段分别达到了 57.9 AP 和 56.0 AP。
Aug, 2023
本文提出了一种基于 CondInst 方法和单阶段的跟踪头的简单高效的视频实例分割框架,利用新颖的双向时空对比学习策略和实例级别的时间一致性方案来提高实例关联性准确性,在 YouTube-VIS-2019,YouTube-VIS-2021 和 OVIS-2021 数据集上验证了该方法的有效性和效率。
Feb, 2022
该研究提出了一种名为 TCOVIS 的在线视频实例分割方法,利用视频剪辑中的时空信息,通过全局实例分配策略和时空增强模块改善特征的时序一致性,并在多个基准测试中取得了最好的性能。
Sep, 2023
UVIS 是一种无监督视频实例分割框架,利用 DINO 模型的密集形状先验和 CLIP 模型的开放识别能力,通过帧级伪标签生成、基于 Transformer 的 VIS 模型训练和基于查询的跟踪等三个关键步骤实现,通过采用双存储器设计,包括语义存储器和跟踪存储器,以提高无监督环境下 VIS 预测的质量,在 YoutubeVIS-2019 等相应基准上取得了 21.1 AP 的结果,展示了该无监督 VIS 框架的潜力。
Jun, 2024
介绍了一种名为 RefineVIS 的视频实例分割框架,该框架通过使用序列上下文反复改进表示来实现帧间的良好对象关联和精确的分割掩模。
Jun, 2023
EfficientVIS 是一种全新的视频实例分割框架,实现了完全的端到端学习,采用了轨迹查询和轨迹建议技术,通过迭代式的查询 - 视频交互方法在空间和时间上关联和分割 RoIs,采用了对应关系学习,不需要手工数据关联即可一次性实现整个视频实例分割,训练时间显著减少并在 YouTube-VIS 基准测试上达到了最先进的准确率。
Mar, 2022
提出了一种最小化的视频实例分割框架 MinVIS,通过训练基于查询的图像实例分割模型来处理视频帧,通过相关性匹配跟踪分割实例,最大限度地减少对标注帧的需求,并在 Occluded VIS 和 YouTube-VIS 数据集上实现与完全监督方法相当的性能,达到了最先进的结果。
Aug, 2022
近期的研究表明,针对具有挑战性和长视频序列而言,传统的离线方法不一定优于逐帧的在线处理。本研究提出了新的面向近在线视频实例分割(NOVIS)方法,并通过详细分析不同处理范式和新的端到端可训练模型,证明了该方法的优越性,并在 YouTube-VIS(2019/2021)和 OVIS 基准测试中取得了新的最先进的结果。
Aug, 2023