CVPRFeb, 2024

UniVS:具备提示查询的统一通用视频分割

TL;DR通过使用提示作为查询,我们提出了一种新颖的统一视频分割 (UniVS) 架构,该架构平均目标的前几帧的提示特征作为初始查询来明确解码掩码,并在掩码解码器中引入了一种目标导向的提示交叉注意力层,以将提示特征集成到内存池中。通过将先前帧中的实体的预测掩码作为其视觉提示,UniVS 将不同的视频分割任务转化为提示引导的目标分割,消除了启发式的帧间匹配过程。我们的框架不仅统一了不同的视频分割任务,还保证在不同的场景中实现了通用的训练和测试,确保了稳健的性能。UniVS 在 10 个具有挑战性的视频分割基准上展现了出色的性能和通用性,涵盖了视频实例、语义、全景、物体和引用分割任务。