Dec, 2023

DVIS++: 通用视频分割的改进解耦框架

TL;DR我们提出了一种新颖的 Decoupled VIdeo Segmentation (DVIS) 框架,用于解决通用视频分割的难题,包括视频实例分割 (VIS),视频语义分割 (VSS) 和视频全景分割 (VPS)。通过将视频分割解耦成三个级联的子任务:分割,跟踪和细化,我们的方法可以更简单、更有效地建模对象的时空表示,特别是在复杂场景和长视频中。我们引入了两个新颖的组件:引用跟踪器和时序细化器,这些组件对物体进行逐帧跟踪,并基于预对齐特征建模时空表示。为了改善 DVIS 的跟踪能力,我们提出了一种去噪训练策略,并引入对比学习,从而得到更强大的名为 DVIS++ 的框架。此外,我们在多种设置下评估了 DVIS++,包括开放词汇和使用冻结预训练骨干。通过将 CLIP 与 DVIS++ 集成,我们提出了 OV-DVIS++,第一个开放词汇的通用视频分割框架。我们在包括 VIS、VSS 和 VPS 数据集在内的六个主流基准上进行了大量实验证明,在接近词汇和开放词汇的设置下,DVIS++ 在这些基准上明显优于最先进的专门方法。