DVIS++: 通用视频分割的改进解耦框架

Dec, 2023

DVIS++: 通用视频分割的改进解耦框架

DVIS++: Improved Decoupled Framework for Universal Video Segmentation

Tao Zhang, Xingye Tian, Yikang Zhou, Shunping Ji, Xuebo Wang...

TL;DR我们提出了一种新颖的Decoupled VIdeo Segmentation (DVIS)框架，用于解决通用视频分割的难题，包括视频实例分割(VIS)，视频语义分割(VSS)和视频全景分割(VPS)。通过将视频分割解耦成三个级联的子任务：分割，跟踪和细化，我们的方法可以更简单、更有效地建模对象的时空表示，特别是在复杂场景和长视频中。我们引入了两个新颖的组件：引用跟踪器和时序细化器，这些组件对物体进行逐帧跟踪，并基于预对齐特征建模时空表示。为了改善DVIS的跟踪能力，我们提出了一种去噪训练策略，并引入对比学习，从而得到更强大的名为DVIS++的框架。此外，我们在多种设置下评估了DVIS++，包括开放词汇和使用冻结预训练骨干。通过将CLIP与DVIS++集成，我们提出了OV-DVIS++，第一个开放词汇的通用视频分割框架。我们在包括VIS、VSS和VPS数据集在内的六个主流基准上进行了大量实验证明，在接近词汇和开放词汇的设置下，DVIS++在这些基准上明显优于最先进的专门方法。

Abstract

We present the \textbf{D}ecoupled \textbf{VI}deo \textbf{S}egmentation (DVIS) framework, a novel approach for the challenging task of universal video segmentation, including video instance segmentation (VIS),