Dec, 2023

DVIS++: 通用视频分割的改进解耦框架

TL;DR我们提出了一种新颖的Decoupled VIdeo Segmentation (DVIS)框架,用于解决通用视频分割的难题,包括视频实例分割(VIS),视频语义分割(VSS)和视频全景分割(VPS)。通过将视频分割解耦成三个级联的子任务:分割,跟踪和细化,我们的方法可以更简单、更有效地建模对象的时空表示,特别是在复杂场景和长视频中。我们引入了两个新颖的组件:引用跟踪器和时序细化器,这些组件对物体进行逐帧跟踪,并基于预对齐特征建模时空表示。为了改善DVIS的跟踪能力,我们提出了一种去噪训练策略,并引入对比学习,从而得到更强大的名为DVIS++的框架。此外,我们在多种设置下评估了DVIS++,包括开放词汇和使用冻结预训练骨干。通过将CLIP与DVIS++集成,我们提出了OV-DVIS++,第一个开放词汇的通用视频分割框架。我们在包括VIS、VSS和VPS数据集在内的六个主流基准上进行了大量实验证明,在接近词汇和开放词汇的设置下,DVIS++在这些基准上明显优于最先进的专门方法。