ICCVAug, 2023

同构器:用于零样本视频目标分割的同构变换器

TL;DRTransformer 模型中,将外观和运动信息简单地串联起来,分别在多个特征阶段进行特征融合,可以明显提高性能,但计算量较大。通过经验分析,我们发现 Transformer 在不同阶段学习到的注意力依赖具有完全不同的特性,于是我们提出了两种 Transformer 变体:Context-Sharing Transformer (CST) 和 Semantic Gathering-Scattering Transformer (SGST),分别用于低层和高层特征融合。相比于基线模型,我们的方法在速度上提升了 13 倍,并实现了新的 ZVOS 任务的最佳性能。