CVPRMay, 2021

基于语音查询的视频角色空间 - 时间协同建模分割

TL;DR本文提出了一种基于协作的时空编码器 - 解码器框架,其中包含一个三维时间编码器和一个二维空间编码器。在解码器中,提出了一种语言引导的特征选择模块和一种交叉模态适应调制模块,以动态重新组合语言特征和时空相关特征。与以往的方法相比,我们的方法在两个流行的基准测试中实现了新的最先进性能,并且计算开销更小。