CVPRApr, 2022

基于多模态特征的文本视频分割运动建模

TL;DR本文提出了一种多模态视频分割方法,通过语言引导的特征融合模块和多模态对齐损失函数,将视觉外观、运动信息和语言特征融合,实现了精准的文本视频分割。在 A2D Sentences 和 J-HMDB Sentences 数据集上的实验表明,该方法与现有方法相比具有更好的性能和泛化能力。